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本 书 从 务实 和 编程 的 角度 讲解 了 贝 叶 斯 统计 中 的 主要 概念 ， 并 介绍 了 如 何 使 
流行 的 PyMC3 来 构建 概率 模型 。 阅 读本 书 ， 读 者 将 掌握 实现 、 检 查 和 扩展 贝 
叶 斯 统计 模型 ， 从 而 提升 解决 一 系列 数据 分 析 问 题 的 能 力 。 本 书 不 要 求 读者 有 任 
可 统计 学 方面 的 基础 ， 但 需要 读者 有 使 用 Python 编程 方面 的 经 验 。 























































































































作 详 者 简介 


作者 简介 








Osvaldo Martin 是 阿根廷 国家 科学 与 技术 理事 会 (CONICET) 的 一 名 研 
究 员 。 该 理事 会 是 负责 阿根廷 科技 进步 的 主要 组 织 。Osvaldo Martin 曾 从 事 结 
构 生 物 信 息 学 和 计算 生物 学 方面 的 研究 ， 特 别 是 在 如 何 验证 结构 蛋白 质 的 模型 
方面 有 着 深入 研究 ;， 此 外 ， 在 应 用 马尔 科 夫 一 蒙特 卡 洛 方法 模拟 分 子 方向 上 有 















































着 丰富 的 经 验 ， 尤 其 喜欢 用 Python 解决 数据 分 析 问 题 。 
学 、Python 编程 等 课程 ， 最 近 还 开设 了 贝 叶 斯 数据 分 书 


















































他 曾 讲 授 结 构 生物 信息 
的 课程 。Python 和 贝 叶 














斯 统计 改变 了 他 对 科学 的 认 知 和 对 问题 的 思考 方式 。 他 
望 借助 Python 帮助 大 家 理解 概率 模型 ， 同 时 ， 他 也 是 
































PyMOL 社区 (一 个 基 





中 

写本 书 的 最 大 动力 是 希 
于 
一 些 


C/Python 的 分 子 可 视 化 社区 ) 的 活跃 成 员 ， 最 近 他 也 对 PyMC3 社区 做 了 一 


页 献 。 














我 要 感谢 我 的 妻子 Romina 在 我 写作 本 书 的 过 程 中 对 我 的 支持 ， 以 
及 对 我 所 有 “疯狂 ”项 目的 支持 。 我 还 要 感谢 Walter Lapadula、Juan 
































Manuel Alonso 和 Romina Torres-Astorga， 他 们 为 本 书 提供 了 宝贵 的 反 


馈 和 建议 。 

















此 外 ， 我 还 要 特别 感谢 PyMC3 的 核心 开发 者 们 ， 本 书 正 是 因为 








他 们 的 辛勤 奉献 才 得 以 成 为 可 能 ,希望 本 书 能 够 促进 PyMC3 的 传播 








和 使 用 。 
技术 审 校 者 简介 





Austin Rochford 是 Monetate Labs 的 首席 数据 科学 家 ， 他 开发 的 产品 用 于 帮 
助 零售 商 在 每 年 数 十 亿 的 活动 中 进行 个 性 化 销售 。 同 时 他 还 是 一 位 积极 倡导 贝 叶 



































斯 方法 的 数学 家 。 























作 译 者 简介 


译 者 简介 

田 俊 ， 计 算 机 专业 硕士 。2016 年 毕业 于 中 国 科学 院 自动 化 研究 所 ， 主 要 研 
究 方 向 为 自然 语言 处 理 中 的 短文 本 分 类 ， 毕 业 后 曾 在 滴 滴 出 行 担任 算法 工程 师 ， 
目前 在 微软 从 事 自然 语言 处 理 方面 的 工作 。 




































































中 文 版 审 校 者 简介 
劳 俊 鹏 ， 心 理学 博士 ，PyMSC 团队 成 员 。2014 年 毕业 于 英国 格拉 斯 可 大 学 ， 








主要 研究 认 知 神经 心理 学 。2013 年 至 今 在 瑞士 弗 里 堡 大 学 从 事 心 理学 研究 ， 专 
攻 数 据 建 模 分 析 和 神经 计算 模型 。 














这 二 
D 
i 








前 可 





贝 叶 斯 统计 距 今 已 经 有 超过 250 年 的 历史 ， 其 间 该 方法 既 饱 受 赞誉 又 备 受 轻 








视 。 直 到 近 几 十 年 ， 得 益 于 型 
地 受到 来 自 统计 学 以 及 其 他 学 科 刀 至 学 术 图 
计 主 要 是 计算 统计 学 ， 人 们 对 模型 的 灵活 愧 









































性 的 追求 最 终 造 就 了 该 趋势 。 














本 书 将 从 实用 的 角度 来 学 习 贝 叶 
贝 叶 斯 统计 之 间 的 关系 。 
j 趣 ， 不 过 受 限 于 篇 幅 ， 
围 之 内 ， 有 兴趣 的 读者 可 以 通过 其 他 方式 深入 了 解 。 


的 方式 学 习 统 计 学 ， 学 习 如 何 从 概率 模型 的 角度 思考 问 














之 相关 的 哲学 讨论 也 很 





这 里 我 们 采用 建 模 





























本 书 的 目的 是 借助 Python 做 贝 叶 斯 数据 分 析 ， 尽 管 
这 部 分 内 容 并 不 在 本 书 的 讨论 范 




















E 论 进步 和 计算 能 力 的 提升 ， 贝 叶 斯 统计 才 越 来 越 多 
以 外 工业 界 的 习 


E 视 。 现 代 的 贝 叶 斯 统 





E、 透 明 性 以 及 统计 分 析 结 果 的 可 解释 


斯 统计 ， 不 会 过 多 地 考虑 统计 学 范例 及 其 
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SE 




































































题 ， 结 合 模型 和 数据 利 | 











斯 方法 在 理论 上 源 于 概率 论 ， 这 也 是 为 








j 贝 叶 斯 理论 推导 出 逻辑 结论 。 这 
种 数值 计算 的 方法 ， 其 中 ， 模 型 部 分 会 由 基于 PyMC3 的 代码 构建 。PyMC3 是 用 
于 贝 叶 斯 统计 的 Python 库 ， 它 为 用 户 封装 了 大 量 的 数学 细节 和 计算 过 程 。 贝 叶 
什么 许多 讲 贝 叶 斯 方法 的 书 中 都 充斥 着 需 





























一 、 















































! 建 模 方式 使 用 的 是 一 















































要 一 定数 学 基础 的 公式 。 学 习 统 计 学 方面 的 数学 知识 显然 有 利于 构建 更 好 的 模 











型 ， 同 时 还 能 让 你 对 问 





本 书 结构 




















够 帮助 你 在 有 限 的 数学 知识 水 平 下 学 习 并 掌握 贝 叶 
中 ， 你 将 亲自 见证 这 一 过 程 。 




















题 、 模 型 和 结果 有 更 好 的 直觉 。 不 过 类 似 PyMC3 的 库 能 
斯 统计 。 在 阅读 本 书 的 过 程 
































第 1 章 ， 概 率 思维 一 一 贝 叶 斯 推断 指南 ， 介 绍 了 贝 叶 斯 理论 及 其 在 数据 分 析 








中 的 意义 ， 并 进一步 阐述 了 贝 叶 斯 思维 方式 的 定义 以 及 为 什么 和 如 何 使 用 概率 来 


处 理 不 确定 性 。 本 章 还 包含 本 书 其 余 章 节 中 的 一 些 基 本 概念 。 
第 2 章 ， 概 率 编程 一 一 PyMC3 编程 指南 ， 从 计算 的 角度 重新 回顾 了 前 一 章 























出 噩 


提 到 


及 如 


的 概念 。 这 一 章 中 我 们 将 引入 PyMC3， 并 学 习 如 何 
对 后 验 进 行 采样 、 判 断 采 样 是 否 正 而 





















































第 3 章 ， 多 参 和 分 层 模 型 ， 介 绍 了 贝 叶 斯 模型 中 最 基础 的 内 容 ， 并 在 此 基础 
上 上 加 入 了 一 些 更 复杂 的 内 容 。 我 们 将 学 习 如 何 利 用 多 个 参数 构建 3 


何 利用 分 层 模型 的 优势 往 模型 中 添加 结构 。 

















第 4 章 ， 利 用 线性 回归 模型 理解 并 预测 数据 ， 介 绍 了 线 ' 























j 它 来 构建 概率 模型 、 
外 以 及 分 析 和 解释 贝 叶 斯 结果 。 








分 析 模 型 ， 以 


回归 模型 的 广泛 应 


用 以 及 如 何 将 其 应 用 于 更 复杂 的 模型 。 在 本 章 中 ， 我 们 将 学 习 如 何 利用 线性 模型 


解决 


进 一 


们 将 学 习 一 些 信息 测 准 和 贝 叶 斯 因子 方面 的 到 


比较 


型 


E 





回归 问题 ， 以 及 如 何 处 至 




















异常 值 和 多 变量 的 问题 。 





步 推广 ， 将 其 应 用 于 解决 多 输入 /多 输出 分 类 问题 。 











o 














第 5 章 ， 利 用 逻辑 回归 对 结果 进行 分 类 ， 在 前 一 章 的 基础 上 对 线性 模型 做 了 


第 6 章 ， 模 型 比较 ， 讨 论 了 统计 和 机 器 学 习 中 一 些 常见 的 模型 比较 难点 。 我 





论 知识 ， 以 及 如 何 将 其 应 用 于 模型 














第 7 章 ， 混 合 模 型 ， 讨 论 了 如 何 将 简单 的 模型 混合 在 一 起 构建 出 更 复杂 的 模 





这 种 方法 将 引导 我 们 认识 新 的 模型 ， 并 从 混合 模型 的 角度 重新 











可 顾 前 面 儿 草 











中 学 到 的 模型 。 此 外 ， 本 章 还 讨论 了 如 何 进行 数据 聚 类 和 如 何 处 理 计数 类 型 数据 


等 问 


束 ， 


题 。 


第 8 章 ， 高 斯 过 程 ， 简 要 














准备 工作 




















本 书 代码 部 分 使 用 的 是 Python 3.5 以 上 版 本 ， 因 此 ， 建 议 你 使 











讨论 了 一 些 非 参数 统计 方面 的 高 级 概念 作为 本 书 的 结 











包括 什么 是 核 函 数 、 如 何 使 用 线性 核 回归 以 及 如 何 将 高 斯 过 程 用 了 





























回归 问题 。 

















] Python 3 的 





版 ， 尽 管 本 书 的 大 部 分 代码 都 能 在 更 早 的 版 本 上 运行 《包括 Python 2.7， 不 





能 需要 稍微 修改 )。 























安装 Python 和 Python 库 最 简单 的 方法 是 使 用 Anaconda ( 
软件 )， 你 可 以 通过 网 站 https:/www.continuum.io/downloads 了 解 和 下 载 Anaconda。 
安装 好 Anaconda 之 后 ， 可 以 使 用 conda install 库 的 名 称 来 安装 Python 库 。 























个 用 于 科学 计算 的 























本 书 会 用 到 以 下 Python 库 : 





Ipython 5.0; 
NumPy 1.11.1; 
SciPy 0.18.1; 
Pandas 0.18.1; 
Matplotlib 1.5.3; 
Seaborn 0.7.1; 
PyMC3 3.0。 


读者 对 象 

本 书 的 阅读 对 象 为 不 熟悉 贝 叶 斯 统计 方法 ， 同 时 又 希望 学 习 如 何 进行 贝 叶 
斯 数据 分 析 的 本 科 生 、 研 究 生 或 数据 科学 家 。 本 书 不 要 求 读 者 有 统计 学 或 贝 叶 斯 
分 析 方 面 的 背景 ， 书 中 尽 可 能 地 减少 了 数学 公式 的 使 用 ， 只 在 我 们 认为 有 利于 读 
者 理解 相关 概念 的 地 方 用 到 。 此 外 ， 所 有 的 概念 都 通过 代码 、 图 表 以 及 文字 进行 
了 详细 描述 。 本 书 假设 读者 知道 如 何 使 用 Python 进行 编程 ， 最 好 熟悉 NumPy、 
Matplotlib 或 者 Pandas。 














































































































惯例 
在 阅读 本 书 过 程 中 ， 你 会 看 到 一 些 不 同 的 排版 方式 用 于 区 分 不 同 的 信息 ， 以 
下 是 这 些 排版 的 例子 及 其 解释 。 
文字 中 的 代码 单词 、 数 据 表 的 名 字 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 
径 、 链 接 、 用 户 输入 都 按 以 下 方式 排版 :“ 为 了 准确 计算 HPD， 我 们 将 使 用 
plot post 函数 ”。 






















































































代码 片段 的 排版 方式 如 下 : 
n params = [1, 2, 4] 
pp paranms = lO OSy Qe43] 


X = np.arange (0, max (n params)+1) 


f, ax = plt.subplots (len(n params), len(p params), sharex=True, sharey=True) 





for i in range (3): 
FoF 3 dm FANnde(3} 3 
n = n params[i] 


p = p_params{[j] 


y = stats.binom(n=n, p=p) .pmf (x) 
ax[i,j] .vlines (x, 0, y, colors='b', lw=5) 
axliijl set ylim(0;, 1) 
ax[i,j] .plot(0, 0, label="n = {:3.2f}\np = {:3.2f}".format(n, 
p), alpha=0) 
ax[i,j].legend (fontsize=12) 
ax[2,1] .set xlabel('$\\theta$', fontsize=14) 
ax[1,0] .set ylabel('$p(y|l\\theta)$', fontsize=14) 





ax[0,0] .set xticks (x) 


所 有 命令 行 的 输入 或 输出 都 按 以 下 方式 排版 : 





conda install NamePackage 


读者 反馈 

欢迎 读者 对 本 书 的 反馈 ， 让 我 们 知道 你 关于 这 本 书 的 想法 一 一 喜欢 什么 ， 不 
喜欢 什么 。 读 者 反馈 对 于 我 们 很 重要 ， 它 可 以 帮助 我 们 开发 读者 真正 需要 的 话 
题 。 想 给 我 们 发 送 反 馈 ， 只 需要 发 送 电 子 邮 件 至 feedback@packtpub.com， 并 在 
邮件 主题 中 告知 书 名 。 如 果 你 是 某 个 话题 的 专家 ， 并 且 有 兴趣 编写 书籍 或 者 给 予 
贡献 ， 请 查看 我 们 的 作者 指导 : www.packtpub.com/authors 。 




























































































客户 支持 
你 现在 已 经 是 Packt 书籍 的 荣誉 所 有 者 。 你 还 拥有 以 下 权利 。 



































下 载 示例 代码 

你 可 以 从 http://www.packtpub.com 的 个 人 账户 下 载 本 书 的 示例 代码 文件 。 如 果 
是 从 别 的 地 方 购买 的 本 书 ， 可 以 访问 http:/www.packtpub.com/support， 注 册 后 ， 
代码 文件 会 直接 通过 电子 邮件 发 送 给 你 。 你 也 可 以 通过 下 列 步 骤 下 载 代码 文件 。 


(1) 使 用 你 的 邮箱 和 密码 在 我 们 的 网 站 登录 并 注册 。 






























































(2) 在 顶部 的 SUPPORT 标签 上 悬 停 光标 。 





(3) 单 击 Code Downloads & Errata 按钮 。 


(4) 在 Search 文本 框 中 输入 书 名 。 
(5) 选取 代码 文件 所 在 的 书籍 。 
(6) 选择 购书 途径 的 下 拉 菜 单 。 

















(7) 单 击 Code Download 按钮 。 





你 也 可 以 在 本 书 网 站 的 页 面 单 击 Code Files 按钮 下 载 代码 文件 。 可 以 通过 在 























Search 文本 框 中 输入 书 名 找到 本 书 的 网 页 。 你 需要 登录 自己 的 Packt 账户 。 
文件 下 载 完 成 后 ， 确 保 使 用 下 列 软件 的 最 新 版 解压 或 抽取 文件 : 



































国 WinRAR /7-Zip for Windows; 
国 Zipeg /iZip/ UnRarX for Mac; 
7-Zip / PeaZip for Linux。 








本 书 涉及 的 代码 也 可 以 在 GitHub 上 下 载 https://github.com/ PacktPublishing/ 
Bayesian-Analysis-with-Python。 此 外 ， 在 https://github. com/PacktPublishing/ 中 还 
可 以 查看 一 系列 其 他 书籍 和 视频 的 代码 。 

















下 载 本 书 的 彩 图 














我 们 还 提供 了 本 书 中 所 有 彩色 图 表 的 了 
造成 的 差异 。 你 可 以 从 https://www.packtpub. com/sites/default/files/downloads/ 
BayesianAnalysiswithPython_ColorImages.pdf 下 载 。 






































DF 文件 ， 从 而 帮助 你 理解 印刷 





尽管 我 们 已 经 非常 细心 地 努力 保证 内 容 的 正确 性 ， 但 是 错误 还 是 不 可 避免 。 




















如 果 你 在 本 书 中 发 现 错误 ,不管 是 文本 错误 或 是 代码 错误 ， 请 告诉 我 们 。 你 的 善 


举 会 省 去 其 他 用 户 的 烦恼 ， 并 帮助 我 们 




















改进 本 











的 后 续 版 本 。 如 果 你 发 现 了 任何 


普 误 ， 请 访问 http://www.packtpub.com/submit-errata 报告 给 我 们 。 你 只 需 选取 书 

















出 噩 





























名 ， 单 击 Errata Submission Form 链接 ， 输 入 勘误 的 具体 信息 。 一 旦 勘误 确定 之 后 ， 
我 们 会 接受 你 的 提交 。 勘 误会 上 传 到 我 们 的 网 站 ， 或 者 添加 到 书籍 勘误 部 分 已 有 
的 勘误 列表 下 。 要 查看 以 前 提交 的 勘误 ， 访问 https:/www.packtpub.com/books/ 
content/support， 在 搜索 框 中 输入 书 名 ， 所 需 信 息 便 会 出 现在 Errata 部 分 下 。 此 
外 ， 你 也 可 以 在 以 下 地 址 查看 和 提交 勘误 信息 : https://github.com/aloctavodia/BAP。 






























































版 权 

互联 网 上 版 权 资 料 的 盗版 问题 一 直 是 所 有 媒介 关心 的 问题 。 在 Packt， 我 
们 一 直 严 肃 对 待 版 权 和 许可 的 保护 问题 。 如 果 你 在 互联 网 上 遇 到 任何 形式 的 我 
社 出 版 物 的 非法 副本 ， 请 立即 把 具体 地 址 或 者 网 站 名 称 提供 给 我 们 ， 请 联系 
copyright@packtpub.com， 附 上 可 疑 的 盗版 材料 的 链接 。 我 们 非常 感谢 你 在 保护 
作者 方面 所 做 的 努力 ， 我 们 会 注重 提升 自我 能 力 ， 给 你 带 来 更 有 价值 的 内 容 。 



























































疑问 
如 果 你 对 本 书 有 任何 疑问 ， 可 以 联系 我 们 :duestions@packtpub.com， 我 们 会 
尽 全 力 解决 你 的 问题 。 








eA 
O) 
本 | 


[| 工 | 
概率 思维 一 一 贝 叶 斯 推断 指南 


A 


归根 到 底 ， 概 率 论 不 过 是 把 常识 化 作 计算 而 已 。 


一 一 皮 埃 尔 一 西蒙 。 拉 普 拉 斯 
本 章 我 们 将 学 习 贝 叶 斯 统计 中 的 核心 概念 以 及 一 些 用 于 贝 叶 斯 分 析 的 基本 工 

































































\。 大 部 分 内 容 都 是 一 些 理 论 介绍 ， 其 中 会 涉及 一 些 Python 代码 ， 绝 大 多 数 概 


念 会 在 本 书 其 余 章 节 中 反复 提 到 。 尺 管 本 草 内 容 有 点 偏 理论 ， 可 能 会 让 习惯 代 











码 的 你 感到 有 点 不 安 ， 不 过 这 会 让 你 在 后 面 应 用 贝 叶 斯 统计 方法 解决 问 
易 一 些 。 
本 章 包 含 以 下 主题 : 

统计 模型 ; 
概率 及 不 确定 性 ; 
贝 叶 斯 理论 及 统计 推断 ; 

单 参数 推断 以 及 经 典 的 抛 便 币 问题 ; 
如 何 选择 先 验 ; 
如 何 报告 贝 叶 斯 分 析 结 果 ; 
安装 所 有 相关 的 Python 库 。 













































































1.1 以 建 模 为 中 心 的 统计 学 


题 时 容 


统计 学 主要 是 收集 、 组 织 、 分 析 并 解释 数据 ， 因 此 ， 统 计 学 的 基础 知识 对 











数据 分 析 来 说 至 关 重 要 。 分 析 数 据 时 一 个 非常 有 用 的 技巧 是 知道 如 何 运 月 


日 菜 种 


























编程 语言 (如 Python) 编写 代码 。 真 实 世 界 里 充斥 着 复杂 而 杂乱 的 数据 ， 





因此 





对 数据 做 一 些 预 处 理 操作 必 不 可 少 。 即 便 你 的 数据 已 经 是 整理 好 的 了 ， 掌 握 一 
定 的 编程 技巧 仍然 会 给 你 带 来 很 大 帮助 ， 因 为 如 今 的 贝 叶 斯 统计 绝 大 多 数 都 是 
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计算 统计 学 。 








大 多 数 统计 学 导论 课程 (对 非 统计 学 专业 的 人 而 言 ) 一 般 就 像 展 示 一 本 菜谱 
书 ， 每 一 种 统计 方法 就 是 一 个 菜谱 : 首先 ， 到 统计 学 的 后 厨 取出 一 个 缸 头 打开 ， 


























放 点 数据 上 去 尝 尝 ， 然 后 不 停 搅拌 直到 得 出 一 个 稳定 的 p 值 ， 该 值 最 好 低 于 0.05 


















































(如 果 你 不 知道 什么 是 p 值 ， 别 担心 ， 本 书 不 会 涉及 这 些 概念 )。 这 类 课程 的 目的 
是 教会 你 如 何 选 择 一 个 合适 的 缸 头 。 本 书 采 用 的 是 另外 一 种 方式 : 首先 我 们 也 需 
要 点 原料 ， 不 过 这 次 是 自己 亲自 做 的 而 不 是 买 来 的 缸 头 ， 然 后 学 习 如 何 把 新 鲜 的 












































食材 混合 在 一 起 以 适应 不 同 的 就 饪 场景 。 在 正式 京 饪 之 前 ， 我 们 先 学 点 统计 学 的 


术语 和 概念 。 


1.1.1 探索 式 数据 分 析 





数据 是 统计 学 最 基本 的 组 成 部 分 。 数 据 的 来 源 多 ， 比 如 实验 、 计 算 机 模拟 、 
调查 以 及 观测 等 。 假 如 我 们 是 数据 生成 或 收集 人 员 汪 首先 要 考虑 的 是 要 解决 什么 




















样 的 问题 以 及 打算 采用 什么 方法 ， 








个 叫做 实验 设计 的 分 支 专门 研究 如 何 获取 数据 兴 在 这 个 数据 泛滥 的 年 代 ， 我 们 有 
时 候 会 筷 了 获取 数据 并 非 总 是 很 便宜 。 例 如 ， 尽 管 厌 型 强 子 碰撞 加 速 装置 一 天 

















然后 再 去 着 手 准 备 数据 。 事 实 上 ， 统 计 学 有 一 
























































能 产生 上 百 TB 的 数据 ， 但 其 建造 却 要 花费 数 年 的 大 力 和 智力 。 本 书 假设 我 们 
已 经 获取 了 数据 并 且 数 据 是 整理 好 的 (这 在 现实 中 通常 很 少见 )， 以 便 关注 到 


























本 书 的 主题 上 来 。 如 果 你 想 学 习 如 何 用 Python 做 数据 清洗 和 分 析 并 进一步 学 习 
机 器 学 习 ， 你 可 以 阅读 Jake VanderPlas 写 的 《Python Data Science Handbook》 





一 种, 






































假设 我 们 已 经 有 了 数据 集 ， 通 常 的 做 法 是 先 对 其 探索 并 可 视 化 ， 这 样 我 们 
就 能 对 手头 的 数据 有 个 直观 的 认识 。 可 以 通过 如 下 两 步 完 成 所 谓 的 探索 式 数 据 分 




















析 过 程 ; 


国 描述 性 统计 ; 
国 数据 可 视 化 。 























其 中 ， 描 述 性 统计 是 指 如 何 月 






































一 些 指标 或 统计 值 来 定量 地 总 结 或 刻画 数据 ， 





























例如 你 已 经 知道 了 如 何 用 均值 、 众 数 、 标 准 差 、 四 分 位 差 等 指标 来 描述 数据 。 数 

















1.1 以 建 模 为 中 心 的 统计 学 








据 可 视 化 是 指 用 生动 形象 的 方式 表述 数据 ， 你 大 概 对 直方 图 、 散 点 图 等 表现 形式 
比较 熟悉 。 乍 看 起 来 ， 探 索 式 数据 分 析 似乎 是 在 复杂 分 析 之 前 的 一 些 准备 工作 ， 
或 者 是 作为 一 些 复杂 分 析 方 法 的 替代 品 ， 不 过 探索 式 数 据 分 析 在 理解 、 解 释 、 检 
查 、 总 结 及 交流 贝 叶 斯 分 析 结 果 等 过 程 中 依然 有 用 。 

































































1.1.2 ”统计 推断 
有 时 候 ， 画 画图 、 对 数据 做 些 简单 的 计算 《比如 求 均值 ) 就 够 了 。 另 外 一 
些 时 候 ， 我 们 希望 从 数据 中 挖掘 出 一 些 更 一 般 性 的 结论 。 我 们 可 能 希望 了 解数 
据 是 怎么 生成 的 ， 也 可 能 是 想 对 未 来 还 未 观测 到 的 数据 做 出 预测 ， 又 或 者 是 希 
望 从 多 个 对 观测 值 的 解释 中 找 出 最 合理 的 一 个 ， 这 些 正 是 统计 推断 所 做 的 事情 。 
模型 分 为 许多 种 ， 统 计 推断 依赖 的 是 概率 模型 ， 许 多 科学 研究 (以 及 我 们 对 真 
实 世 界 的 认识 ) 也 都 是 基于 模型 的 ， 大脑 不 过 是 对 现实 进行 建 模 的 一 台 机 器 ， 可 
以 观看 相关 的 TED 演讲 了 解 大 脑 是 如 何 对 现实 进行 建 模 的 ， 网 址 为 http://www. 
tedxriodelaplata.org/videos/mo%C3%Alquina-construye-reallidad 。 

什么 是 模型 ? 模型 是 对 给 定 系统 或 过 程 的 一 种 简化 描述 。 这 些 描述 只 关注 系 
统 中 某 些 重要 的 部 分 ， 因 此 ， 大 多 数 模型 的 目的 并 不 是 解释 整个 系统 。 此 外 ， 假 
如 我 们 有 两 个 模型 能 用 来 解释 同一 份 数据 并 且 效果 差不多 ， 其 中 一 个 简单 点 ， 另 
一 个 复杂 一 些 ， 通 常 我 们 倾向 于 更 简单 的 模型 ， 这 称 作 奥 卡 姆 剃刀 ， 我 们 会 在 第 
6 章 模 型 比较 部 分 讨论 贝 叶 斯 分 析 与 其 之 间 的 联系 。 

不 管 你 打算 构建 哪 种 模型 ， 模 型 构建 都 遵循 一 些 相 似 的 基本 准则 ， 我 们 把 贝 
叶 斯 模型 的 构建 过 程 总 结 为 如 下 3 步 。 

(1) 给 定 一 些 数据 以 及 这 些 数 据 是 如 何 生成 的 假设 ， 然 后 构建 模型 。 通 常 ， 
这 里 的 模型 都 是 一 些 很 粗略 的 近似 ， 不 过 大 多 时 候 也 人 够 用 了 。 

(2) 利用 贝 叶 斯 理论 将 数据 和 模型 结合 起 来 ， 根 据 数据 和 假设 推导 出 逻辑 
论 ， 我 们 称 之 为 经 数据 拟 合 后 的 模型 。 

(3) 根据 多 种 标准 ， 包 括 真 实数 据 和 对 研究 问题 的 先 验 知 识 ， 判 断 模型 拟 合 


和 组 旦 ah 
得 是 否 合 - 士 o 
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通常 ， 我 们 会 发 现实 际 的 建 模 过 程 并 非 严格 按照 该 顺序 进行 的 ， 有 时 候 我 们 
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可 能 跳 到 其 中 任何 一 








人 已 日 了 





口 








人 台 已 日 











步 ， 原 因 可 外 


E 是 编写 的 程序 出 

















错 了 ， 也 可 找到 了 某 种 


用 十 





改进 模型 的 方式 ， 又 或 者 是 我 们 需要 增加 更 多 的 数据 。 








贝 叶 斯 模型 是 基于 概率 构建 的 ， 因 














因 
行 深入 了 解 。 








为 概率 这 个 数学 工具 能 够 很 好 地 























1.2 ”概率 与 不 确定 性 





尽管 概率 论 是 数学 中 一 个 相当 成 熟 和 完善 的 分 
1 叶 斯 派 而 言 ， 概 率 是 对 某 一 
硬币 一 无 所 知 ， 同 时 没有 与 抛 硬 币 相关 的 任何 数 











不 止 一 种 。 对 于 























率 介 于 0 到 1 之 间 ， 也 就 是 说 ， 在 缺少 信息 和 





的 ， 此 时 不 确定 性 也 最 大 。 假 设 现在 我 们 知 
正面 朝 上 的 概率 是 0.5 或 者 是 0.5 附近 的 某 个 值 ( 假 如 硬币 不 是 绝对 公平 的 话 )， 


四 
个 





如 
对 该 硬币 1 








火星 上 有 多 大 可 能 存在 生命 ? 
3 9 号 是 晴天 的 概率 是 多 少 ? 











年 7 
题 的 


和 生 


答案 


勿 条 


二 











握 的 信息 而 非 客 观 的 自然 属 


此 时 收集 数据 ， 我 们 可 以 根据 观测 值 进 











此 也 称 作 概 率 模型 。 为 什么 基于 概率 呢 ? 
述 数 据 中 的 不 确定 性 ， 接 下 来 我 们 将 对 其 进 


但 关于 概率 的 诠释 仍然 有 
有 定性 的 衡量 。 假 设 我 们 对 

， 那 么 可 以 认为 正面 朝 上 的 概 
的 情况 下， 所 有 情况 都 是 有 可 能 发 生 


道 硬 币 是 公平 的 ， 那 么 我 们 可 以 认为 
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局 差 的 不 确定 性 。 按 照 这 种 定义 ， 提 出 以 下 问题 都 是 自然 而 




















电子 的 质量 





步 更 新 前 面 的 先 验 假设 ， 从 而 降低 
全 的 : 


口 



































是 *9.1 X10 kg 的 概率 是 多 大 ? 1816 








直 得 注意 的 是 ， 类 似 火 星 上 是 
是 二 值 化 的 ， 但 我 们 关心 的 是 ， 基 于 现 有 数据 以 及 我 们 对 火星 物理 条 件 
盾 的 了 解 ， 火 星 上 存在 生命 的 概率 有 和 多大。 该 命题 取决 于 我 们 当前 所 掌 








否 有 生命 这 种 问 












































属性 。 我 们 使 

















表 
称 为 概率 的 主观 定 》 
这 种 定义 并 不 是 说 所 


| 














事件 本 身 是 不 确定 的 。 











， 这 也 就 解释 了 为 

















于 现 有 的 数据 和 模型 ， 


即使 我 们 能 脱离 社会 








人 





不 可 能 像 蜗 
的 就 是 对 其 ; 


下 或 
行 


















































] 概 
由 于 这 种 概率 的 定义 取决 于 我 们 的 认 知 水 平 ， 有 时 也 被 
十 么 贝 叶 
命题 都 是 同等 有 意义 的 ， 仅 是 承认 我 
是 不 完备 的 。 不 基于 模型 或 理论 去 
预 设 ， 最 终 也 会 受到 
的 大 脑 已 经 与 世界 上 的 模型 建立 了 联系 。 
动物 那样 思考 。 而 


I 生物 上 的 限制 : 


我 


， 字 宙 是 不 确 





率 是 因为 我 们 对 事件 不 确定 ， 而 不 代 























斯 派 总 被 称 作 主 观 统计 。 然 而 ， 
们 对 世界 的 理解 是 基 
E 解 世界 是 不 可 能 的 。 

受 进化 过 程 影响 ， 我 们 
们 注定 要 以 人 类 的 方式 去 思考 ， 永 远 
定 的 ， 总 的 来 说 我 们 能 做 





































































































概率 性 描述 。 需 要 注意 的 





























的 ， 我 们 都 将 概率 作为 衡 
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， 不 管 世界 的 本 原 是 确定 的 还 是 随机 
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逻辑 是 指 如 何 有 效 地 推论 ， 在 亚 里 士 多 德 学 派 或 者 经 典 的 逻辑 学 中 ， 一 个 
命题 只 能 是 对 或 者 错 ， 而 在 贝 叶 斯 学 派 定 义 的 概率 中 ， 确 定性 只 是 概率 上 的 一 
种 特殊 情况 : 一 个 正确 命题 的 概率 值 为 1， 而 一 个 错误 命题 的 概率 值 为 0。 只 有 
在 我 们 拥有 充分 的 数据 表明 火星 上 存在 生物 生长 和 繁殖 时 ， 我 们 才 认 为 “火星 上 
存在 生命 ”这 一 命题 为 真 的 概率 值 为 1。 不 过 ， 需 要 注意 的 是 ， 认 定 一 个 命题 的 
概率 值 为 0 通常 是 比较 困难 的 ， 这 是 因为 火星 上 可 能 存在 某 些 地 方 还 没 被 探测 
到 ， 或 者 是 我 们 的 实验 有 问题 ， 又 或 者 是 某 些 其 他 原因 导致 我 们 错误 地 认为 火星 
上 没有 生命 而 实际 上 有 。 与 此 相关 的 是 元 伦 威 尔 准则 (Cromwell”’s Rule) ， 其 含 
义 是 指 在 对 逻辑 上 正确 或 错误 的 命题 赋予 概率 值 时 ， 应 当 避 人 免 使 用 0 或 者 1。 有 
意思 的 是 ， 考 克 斯 (Cox) 在 数学 上 证 明了 如 果 想 在 逻辑 推理 中 加 入 不 确定 性 ， 我 
们 就 必须 使 用 概率 论 的 知识 ， 由 此 来 说 ， 贝 叶 斯 定理 可 以 视 为 概率 论 逻 辑 上 的 结 
果 。 因 此 ， 从 另 一 个 角度 来 看 ， 贝 叶 斯 统计 是 对 逻辑 学 处 理 不 确定 性 问题 的 一 种 
扩充 ， 当 然 这 里 毫 无 对 主观 推理 的 轻 碾 。 现 在 我 们 已 经 熟悉 了 贝 叶 斯 学 派对 概率 
的 理解 ， 接 下 来 就 了 解 下 概率 相关 的 数学 特性 吧 。 如 果 你 想 深 入 学 习 概率 论 ， 可 
以 参考 阅读 Joseph K Blitzstein 和 Jessica Hwang 写 的 《概率 导论 》(Introduction to 
Probability )。 


概率 值 介 于 [0,1] 之 间 (包括 0 和 1)， 其 计算 遵循 一 些 法 则 ， 其 中 之 一 是 乘 
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p(4,B)=p(41B)p(B) 

上 式 中 ，4 和 B 同 时 发 生 的 概率 值 等 于 8 发生 的 概率 值 乘 以 在 8 发 生 的 条 
件 下 4 也 发 生 的 概率 值 ， 其 中 ，p(4,8) 表 示 4 和 8 的 联合 概率 ，p(418) 表 示 条 
件 概率 ， 二 者 的 现实 意义 是 不 同 的 ， 例 如 ， 路 面 是 湿 的 概率 跟 下 雨 时 候 路 面 是 湿 
的 概率 是 不 同 的 。 条 件 概率 可 能 比 原来 的 概率 高 ， 也 可 能 低 。 如 果 B 并 不 能 提 
供 任何 关于 4 的 信息 ， 那 么 ，p (418)=p(4)， 也 就 是 说 ，4 和 B 是 相互 独立 的 。 
相反 ， 如 果 事 件 B 能 够 给 出 关于 事件 4 的 一 些 信息 ， 那 么 根据 事件 B 提供 的 信 
息 不 同 ， 事 件 4 可 能 发 生 的 概率 会 变 得 更 高 或 是 更 低 。 

条 件 概率 是 统计 学 中 的 一 个 核心 概念 ， 接 下 来 我 们 将 看 到 ， 理 解 条 件 概率 对 
于 理解 贝 叶 斯 理论 至 关 重 要 。 这 里 我 们 换个 角度 来 看 条 件 概率 ， 假 如 我 们 把 前 面 
的 公式 调整 下 顺序 ， 就 可 以 得 到 下 面 的 公式 ; 
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p(4,8) 


p(B8) 





p(418)= 








需要 注意 的 是 ， 我 们 不 对 0 概率 事件 计算 条 件 概率 ， 因 此 ， 分 母 的 有 


区 值 范围 
































(0,1)， 从 而 可 以 看 出 条 件 概 率 大 于 或 等 于 联合 概率 。 为 什么 要 除 以 p(B) 呢 ? 因 
在 已 经 知道 事件 8 发 生 的 条 件 下 ， 我 们 考虑 的 可 能 性 空间 就 缩小 到 了 事件 8 发 












































的 范围 内 ， 然 后 将 该 范围 内 4 发 生 的 可 能 性 除 以 8 发 生 的 可 能 性 便 得 到 了 条 件 












































率 p(418)。 需 要 强调 的 是 ， 所 有 的 概率 本 质 上 都 是 条 件 概率 ， 世 间 并 没有 绝对 











概率 。 不 管 我 们 是 否 留意 ， 在 谈 到 概率 时 总 是 存在 这 样 或 那样 的 模型 、 























假设 或 


条 件 。 比 如 ， 当 我 们 讨论 明天 下 十 的 概率 时 ， 在 地 球 上 、 火 星 上 甚至 宇宙 中 其 他 


方 明天 下 雨 的 概率 是 不 同 的 。 同 样 ， 硬 币 正面 朝 上 的 概率 取决 于 我 们 对 人 硬币 有 
性 的 假设 。 在 理解 概率 的 含义 之 后 ， 接 下 来 我 们 讨论 另 一 个 话题 : 概率 分 布 。 












































2.1 概率 分 布 
概率 分 布 是 数学 中 的 一 个 概念 ， 用 来 描述 不 同事 件 发 生 的 可 能 性 ， 
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通常 这 

















事件 限定 在 一 个 集合 内 ， 代 表 了 所 有 可 能 发 生 的 事件 在 统计 学 里 可 以 这 么 理 


: 数据 是 从 某 种 参数 未 知 的 概率 分 布 中 生成 的 6 由 于 并 不 知道 具体 的 参数 ， 我 







































































础 ， 不 同 分 布 组 合 在 一 起 之 后 可 以 得 到 一 些 很 有 用 的 复杂 模型 。 




















只 能 借用 贝 叶 斯 定理 从 仅 有 的 数据 中 反 推 参数 。 概 率 分 布 是 构建 贝 叶 斯 模型 的 


本 书 会 介绍 一 些 概率 分 布 ， 在 第 一 次 介绍 某 个 概率 分 布 时 ， 我 们 会 先 花 点 时 



































如 下 : 
上 
pdf (x|1,0)= e ?25 


ONV2Nn 








理解 它 。 最 常见 的 一 种 概率 分 布 是 高 斯 分 布 ， 又 叫 正 态 分 布 ， 其 数学 公式 描 


上 式 中 ,jy 和 o 是 高 斯 分 布 的 两 个 参数 。 第 1 个 参数 /是 该 分 布 的 均值 〈 同 

















也 是 中 位 数 和 众 数 )， 其 取 值 范围 是 任意 实数 ， 即 eR; 第 2 个 参数 go 是 标准 





























， 用 来 衡量 分 布 的 离散 程度 ， 其 取 值 只 能 为 正 。 由 于 4 和 的 取 值 范围 
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此 高 斯 分 布 的 实例 也 有 无 穷 多 。 虽 然 数 学 公式 这 一 表达 形式 简洁 明了 ， 












































无 穷 大 ， 
也 有 人 














之 有 美感 ， 不 过 得 承认 公式 还 是 有 些 不 够 直观 ， 我 们 可 以 尝试 用 Python 代码 












































公式 的 含义 重新 表示 出 来 。 首 先 看 看 高 斯 分 布 都 长 什么 样 : 
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import matplotlib.pyplot as pilt 
import numpy as np 
from scipy import stats 


import seaborn as sns 


mu params = [-1, 0, 1] 
[EOS Ly 业 S 呈 | 
XX = np.linspace(=7, 7, 100) 


sd params 


f, ax = plt.subplots (len (mu params), len(sd params), sharex=True, sharey=True) 
£6F 1 Lm Tange(3): 
fer Tn range(3): 
mu = mu params [i] 
sd = sd params{[j] 
y = stats.norm(mu, sd) .pdf (x) 
a [I] Lot(R YY) 
axrliryl. Blott0. 0 
label="$\\mu$ = {:3.2f}\n$\\sigma$ = {:3.2f}".format (mu, sd), alpha=0) 
ax[i,j].legend (fontsize=12) 
ax[2,1] .set xlabel ('$x$', fontsize=16) 
ax[1,0] .set ylabel('$pdf (x)$', fontsize=16) 
ltt1ight Laveut () 














上 面 代码 的 输出 结果 如 下 : 
0.8 
加 A=-1.00 14=-1.00 
03 o=1.00 0o=1.50 
0.4 
0.3 
0.2 
0.1 
0.0 
0.8 
07 1=0.00 1=0.00 
03 o=1.00 o=1.50 
人 04 
中 
BB 0.1 全 二 
0.0 
0.8 
07 j=1.00 4=1.00 4=1.00 
05 o=0.50 o=1.00 o=1.50 
0.4 
0.3 
0.2 
0.1 
0.0 


8-6-4-202 468 -8-6-4-202 468 -8-6-4-202 468 


由 概率 分 布 生成 的 变量 (例如 x) 称 作 随机 变量 ， 当 然 这 并 不 是 说 该 变量 可 
以 取 任 意 值 ， 相 反 ， 我 们 观测 到 该 变量 的 数值 受到 概率 分 布 的 约束 ， 而 其 随机 性 


且 
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源 于 我 们 只 知道 变量 的 分 布 却 无 法 准确 预测 该 变量 的 值 。 通 常 ， 如 果 一 个 随机 变 
量 服从 在 参数 4 和 下 的 高 斯 分 布 ， 我 们 可 以 这 样 表示 该 变量 : 
































XxX~ N(4,0) 





其 中 ， 符 号 一 读 作 服从 于 某 种 分 布 。 

随机 变量 分 为 两 种 : 连续 变量 和 离散 变量 。 连 续 随 机 变量 可 以 从 某 个 区 间 内 
取 任 意 值 〈 我 们 可 以 用 Python 中 的 浮 点 型 数据 来 表示 )， 而 离散 随机 变量 只 能 取 
某 些 特定 的 值 〈 我 们 可 以 用 Python 中 的 整 型 数据 来 表示 )。 

许多 模型 都 假设 ， 如 果 对 服从 于 同一 个 分 布 的 多 个 随机 变量 进行 连续 采 
样 ， 那 么 各 个 变量 的 采样 值 之 间 相 互 独立 ， 我 们 称 这 些 随机 变量 是 独立 同 分 布 
的 。 用 数学 语言 描述 就 是 ， 如 果 两 个 随机 变量 x 和 ?了 对 于 所 有 可 能 的 取 值 都 满足 
p(x,y)= p(x)p(y)， 那 么 称 这 两 个 变量 相互 独立 。 

时 间 序 列 是 不 满足 独立 同 分 布 的 一 个 典型 例子 。 在 时 间 序 列 中 ， 需 要 对 时 间 维 
度 的 变量 多 加 留心 。 下 面 的 例子 是 从 http/cdiac.esd'ornlLgov 中 获取 的 数据 。 这 份 数 
据 记 录 了 从 1959 年 到 1997 年 大 气 中 二 氧化 碳 的 含量 .我 们 用 以 下 代码 将 它 写 出 来 : 





































































































data = np.genfromtxt ('mauna_ loa CO2.csy', delimitez="','") 
Plt Elot tdatalsrd datalsyr ll)’) 

plt.xlabel ('$year$', fontsize=16) 

plt.ylabel('$CO 2 (ppmv)$', fontsize=16) 
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图 中 每 个 点 表示 每 个 月 空气 中 二 氧化 矶 含量 的 测量 值 ， 可 以 看 到 测量 值 是 与 
时 间 相 关 的 。 我 们 可 以 观察 到 两 个 趋势 ; 一 个 是 季节 性 的 波动 趋势 《这 与 植物 周 
期 性 生长 和 衰败 有 关 );， 男 一 个 是 二 氧化 碳 含量 整体 性 的 上 升 趋 势 。 
























































1.2.2 ” 贝 叶 斯 定理 与 统计 推断 
到 目前 为 上 ， 我 们 已 经 学 习 了 一 些 统计 学 中 的 基本 概念 和 词汇 ， 接 下 来 让 我 
们 首先 看 看 神奇 的 贝 叶 斯 定理 : 






























































A Ad eh, 
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(D) 
看 起 来 稀 松 平常 ， 似 乎 跟 小 学 课本 里 的 公式 差不多 ， 不 过 这 就 是 关于 贝 叶 
斯 统计 你 所 需要 掌握 的 全 部 。 首 先 看 看 贝 叶 斯 定理 是 怎么 来 的 ， 这 对 我 们 理 
解 它 会 很 有 帮助 。 事 实 上 ， 我 们 已 经 掌握 了 如 何 推导 它 所 需要 的 全 部 概率 论 
知识 。 





















































根据 前 面 提 到 的 概率 论 中 的 乘法 准则 ， 我 们 有 以 下 式 子 : 
Pp(H,D)= p(H|D)p(D) 
加 上 式 还 可 以 写成 如 下 形式 : 
Pp(H,D)= p(DIH)p(H) 
国 由 于 以 上 式 子 的 左边 相等 ， 于 是 可 以 得 到 : 


Pp(DIH)p(H)=p(HID)p(D) 


























国 对 上 式 调整 下 顺序 ， 便 得 到 了 贝 叶 斯 定理 : 
Pp(DIH)p(H) 
HID)= 汪 ~ 

p( | ) p(D) 














现在 ， 让 我 们 看 看 这 个 式 子 的 含义 及 其 重要 性 。 首 先 ， 上 式 表明 p(D | 及 ) 和 
PpP(H1D) 并 不 一 定 相 等 ， 这 一 点 非常 重要 ， 日常 分 析 中 即使 系统 学 习 过 统计 学 和 
概率 论 的 人 也 很 容易 忽略 这 点 。 我 们 举 个 简单 例子 来 说 明 为 什么 二 者 不 一 定 相 
等 ， 有 两 条 腿 的 动物 就 是 人 的 概率 和 人 有 两 条 腿 的 概率 显然 是 不 同 的 。 几 乎 所 有 
人 都 有 两 条 腿 《〈 除 了 菜 些 人 因为 先天 性 原因 或 者 意外 导致 没有 两 条 腿 )， 但 是 有 
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两 条 腿 的 动物 中 很 多 都 不 是 人 类 ， 比 如 乌 类 。 


在 前 面 的 式 子 中 ， 如 果 我 们 将 已 理解 为 假设 ， 忆 理解 为 数据 ， 那 么 贝 叶 斯 





























定理 告诉 我 们 的 就 是 ， 在 给 定数 据 的 条 件 下 如 何 计 算 假设 成 立 的 概率 。 不 过 ， 如 











马 





何 把 假设 融入 贝 叶 斯 定理 











的 假设 ， 我 们 所 做 的 实际 上 是 寻找 模型 的 参数 
此 ， 与 其 称 互 为 假设 ， 不 如 称 之 为 模型 ， 这 样 能 避免 歧义 。 


贝 叶 斯 定理 非常 重要 ， 后 面 会 反复 用 到 ， 这 里 我 们 先 熟悉 下 其 各 个 部 分 的 








图 PP(Z): 先 验 ; 


图 p(D | 妃 ):， 似 然 ; 
图 p(7|D): 后 验 ; 


国 p(D): 证 据 。 








中 去 呢 ? 答案 是 概率 分 布 。 换 句 话 说 ， 瓦 是 一 种 狭义 上 





























(更 准确 地 说 是 参数 的 分 布 )。 因 




















先 验 分 布 反映 的 是 在 观测 到 数据 之 前 我 们 对 参数 的 了 解 ， 如 果 我 们 对 参数 一 
无 所 知 〈 就 跟 《 权 力 的 游戏 》 中 的 雪 诺 一 样 )， 


的 均匀 分 布 来 表示 。 由 于 引入 了 























那么 可 以 用 一 个 不 包含 太 多 信息 





Et 验 ， 有 些 从 会 认为 贝 叶 斯 统计 是 偏 主观 的 ， 然 











而 ， 这 些 先 验 不 过 是 构建 模型 时 的 一 些 假设 罢了 ， 其 主观 性 跟 似 然 差不多 。 





似 然 是 指 如 何在 实验 分 析 中 引入 观测 数据 ， 反 映 的 是 在 


观测 数据 的 可 信 度 。 














给 定 参数 下 得 到 某 组 








后 验 分 布 是 贝 叶 斯 分 析 的 结果 ， 反 映 的 是 在 给 定数 据 和 模型 的 条 件 下 我 们 


对 问题 的 全 部 认 知 。 需 要 注 








， 后 验 指 的 是 我 们 模型 中 参数 的 概率 分 布 而 不 是 某 





























个 值 ， 该 分 布 正比 于 先 验 乘 以 似 然 。 有 这 么 个 笑话 : 贝 叶 斯 学 派 就 像 是 这 样 一 类 
人 ,心里 隐约 期 待 着 一 匹 马 ， 偶 然 间 警 见 了 一 头 驴 ， 结 果 坚 信和 他 看 到 的 是 一 头 
又 子 。 当 然 了 ， 如 果 要 刻意 纠正 这 个 笑话 的 话 ， 
下 ， 我 们 会 得 到 一 个 〈 模 糊 的 )“ 又 子 ” 后 验 。 


























个 道理 ， 后 验 其 实 是 对 先 验 和 似 然 的 茶 种 折 中 。 从 概念 上 讲 ， 
观测 到 数据 之 后 对 先 验 的 更 新 。 






























































事实 上 ， 





一 次 分 析 中 的 后 验 ， 在 收集 至 








在 先 验 和 似 然 都 比较 含糊 的 情况 
不 过 ， 这 个 笑话 也 讲 出 了 这 样 一 
后 验 可 以 看 做 是 在 
| 新 的 数据 












































之 后 ， 也 可 以 看 做 是 下 一 次 分 析 中 的 先 验 。 这 使 得 贝 叶 斯 分 析 特 别 适 合 于 序列 化 


的 数据 分 析 ， 比 如 通过 实时 处 到 


来 自 气 象 站 和 了 

















Ep 星 的 数据 从 而 提前 预警 灾害 ， 更 













































































1.3 单 参数 推断 
































详细 的 内 容 可 以 阅读 在 线 机 器 学 习 方面 的 算法 。 

最 后 一 个 概念 是 证 据 ， 也 称 作 边 缘 似 然 。 正 式 地 讲 ， 证 据 是 在 模型 的 参数 取 
遍 所 有 可 能 值 的 条 件 下 得 到 指定 观测 值 的 概率 的 平均 。 不 过 ， 本 书 的 大 部 分 内 容 
并 不 关心 这 个 概念 ， 我 们 可 以 简单 地 把 它 当 作 归 一 化 系数 。 我 们 只 关心 参数 的 相 
对 值 而 非 绝 对 值 。 把 证 据 这 一 项 忽略 掉 之 后 ， 贝 叶 斯 定理 可 以 表示 成 如 下 正比 例 
形式 : 

Pp(HID)%p(DIH)p(H) 
理解 其 中 的 每 个 概念 可 能 需要 时 间 和 更 多 的 例子 ， 本 书 也 将 围绕 这 些 内 容 展开 


1.3 





单 参数 推断 


前 面 ， 我 们 学 习 了 几 个 重要 概念 ， 其 中 有 两 个 


里 我 们 用 一 
是 用 来 在 观测 到 新 的 数据 时 了 


现在 我 们 已 经 知道 什么 是 贝 叶 斯 统计 了 ， 接 下 来 就 从 一 








句 话 再 重 


型 


























新 强调 下 : 
FE 确 更 新 这 4 











是 贝 叶 斯 统计 的 核心 概念 ， 这 














概率 是 




















通过 推断 单个 未 知 参数 来 学 习 如 何 进行 贝 叶 斯 统计 。 


1.3.1 抛 硬币 问题 


抛 重 币 是 统计 学 中 的 一 个 经 典 问题 ， 其 描述 如 下 : 我 们 随机 抛 一 枚 硬币 ， 
记录 正面 朝 上 和 反面 朝 上 的 次 数 ， 根 据 这 些 数据 ， 我 们 需要 回答 庶 


复 一 


定 次 数 ， 








如 这 枚 硬 





币 是 耕 公 平 ， 


以 及 更 i 








学 习 贝 叶 
另 一 方面 





























三 
二 


因 








垃圾 邮件 


或 者 正常 邮件 、 

















斯 统计 非常 好 的 例子 ， 
为 这 个 模型 很 简单 ， 
许多 真实 问题 都 包含 两 个 互 斥 的 结果 ， 例 如 0 或 者 1、 
安全 或 者 不 安全 、 














讨论 的 是 硬币 ， 该 模型 也 同样 适用 于 前 面 这 些 问 题 。 


为 了 
题 ， 我 们 需 








估计 硬币 的 偏差 ， 





或 者 更 


想 要 


1 


泛 地 说 ， 





要 数据 和 一 个 概率 模型 。 








对 于 抛 人 硬币 这 


j 来 衡量 参数 不 确 
些 概率 以 期 降低 我 们 的 不 确 

















步 这 枚 硬币 有 多 不 公平 等 问题 。 
一 方面 是 因为 几乎 人 人 都 熟悉 抛 硬 币 这 一 
我 们 可 以 很 容易 计算 并 解决 这 
正 或 者 负 、 








定性 的 ， 贝 叶 斯 定理 就 





ee 


夺 











性 。 
个 简单 的 例子 入 手 ， 








mh 
ian 








抛 硬币 是 一 个 
过 程 ， 
个 问题 。 此 外 ， 
奇数 或 者 偶数 、 





























ee 


尽 等 


健康 或 者 不 健康 等 。 








因此 ， 即 便 我 们 





1 叶 斯 学 派 理 论 解决 问 
假设 我 们 已 试验 了 








ee 
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一 定 次 数 并 且 记 录 了 正面 朝 上 的 次 数 ， 也 就 是 说 数据 部 分 已 经 准备 好 了 ， 剩 下 
的 就 是 模型 部 分 了 。 考 虑 到 这 是 第 一 个 模型 ， 我 们 会 列 出 所 有 必要 的 数学 公 
式 ， 并 且 一 步 一 步 推导 。 下 一 章 中 ， 我 们 会 重新 回顾 这 个 问题 ， 并 借用 PyMC3 
从 数值 上 解决 它 〈 也 就 是 说 那 部 分 不 需要 手动 推导 ， 而 是 利用 PyMC3 和 计算 
机 来 完成 )。 



















































































通用 模型 
首先 ， 我 们 要 抽象 出 侦 差 的 概念 。 我 们 称 ， 如 果 一 枚 硬币 总 是 正面 角 上 ， 那 
么 它 的 偏差 就 是 1， 反 之 ， 如 果 总 是 反面 朝 上 ， 那 么 它 的 偏差 就 是 0， 如 果 正 雷 
朝 上 和 反面 朝 上 的 次 数 各 占 一 半 ， 那 么 它 的 偏差 就 是 0.5。 这 里 用 参数 9 来 表示 
偏差 ， 用 yy 表示 NN 次 抛 硬币 实验 中 正面 朝 上 的 次 数 。 根 据 贝 叶 斯 定理 ， 我 们 有 如 
下 公式 : 


































































































p(9|y)x p(y10)p(0) 


这 里 需要 指定 我 们 将 要 使 用 的 先 验 p(9) 和 似 然 p (3》19) 分 别 是 什么 。 让 我 
们 首先 从 似 然 开始 。 


























选择 似 然 

假设 多 次 抛 硬币 的 结果 相互 之 间 没 有 影响 ， 也 就 是 说 每 次 抛 人 硬币 都 是 本 
互 独立 的 ， 同 时 还 假设 结果 只 有 两 种 可 能 : 正面 朝 上 或 者 反面 朝 上 。 但 愿 你 能 
认同 我 们 对 这 个 问题 做 出 的 合理 假设 。 基 于 这 些 假设 ， 一 个 不 错 的 似 然 候 选 
二 项 分 布 : 














ZU 















































站 








可 NN! (Ny) 
phloem 00) 
这 是 一 个 离散 分 布 ， 表示 次 抛 人 硬币 实验 中 y 次 正面 朝 上 的 概率 (或 者 更 通 
俗 地 描述 是 ，N 次 实验 中 , 次 成 功 的 概率 )。 下 面 的 代码 生成 了 9 个 二 项 分 布 ， 
每 个 子 图 中 的 标签 显示 了 对 应 的 参数 : 















































n_params = [1，2，4] 
pparanms: = [025, O03, W373] 
x = np.arange (0, max (n_params)+1) 


f, ax = plt.subplots (len(n params), len(p params), sharex=True, sharey=True) 





[ 121 


for TN aange(3 
£8E TT Ln Tange(3): 
n = n params [i] 
P = p_params[j] 
y = stats.binom(n=n, p=p) .pmf (x) 


ax[i,j] .vlines (x, 0, y, colors='b', lw=5) 


ax[i,j] .set ylim(0, 1) 
ax[i,j] .plot (0, 0, label="n = {:3.2f} 
{:3.:2£f}",format (n, pp),: alpha=0) 
ax[i,j].legend (fontsize=12) 
ax[2,1] .set xlabel('$\\theta$', fontsize=14) 
ax[1,0] .set ylabel ('$p(yl\\theta)$', fontsize 
ax[0,0] .set xticks (x) 





1.0 


08 n=1.00 n=1.00 
=0.25 =0.50 
06 Pi Pp 
0.4 | | 
0.2 | 
0.0 
1.0 
08 n=2.00 n=2.00 
PN p=0.25 p=0.50 
SS 0.6 
> 04 
A 02 | | | 
0.0 
1.0 
08 n=4.00 n=4.00 
=0.25 =0.50 
06 Pp Pp 
0.4 
| | | 
00 | LD] 站 | | 和 
“0 1 2 3 4 0 1 2 3 
0 





\np = 


=14) 
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n=1.00 
p=0.75 


n=2.00 
p=0.75 


二 项 分 布 是 似 然 的 一 个 合理 选择 ， 直 观 上 讲 ，0 可 以 看 作 抛 一 次 硬币 时 正面 
朝 上 的 可 能 性 ， 并 且 该 过 程 发 生 了 ?了 次。 类似 地 ， 我 们 可 以 把 “1-0” 看 作 抛 一 
次 硬币 时 反面 朝 上 的 概率 ， 并 且 该 过 程 发 生 了 “N-y” 次 。 





























假如 我 们 知道 了 6， 那么 就 可 以 从 二 项 分 布 得 








b 便 中 


E 面 朝 上 的 分 布 。 如 果 





1 





我 们 不 知道 0， 也 别 灰 心 ， 在 贝 叶 斯 统计 中 ， 当 我 们 不 知道 某 个 参数 的 时 候 ， 就 























对 其 赋予 一 个 先 验 。 接 下 来 继续 选择 先 验 。 


























这 里 我 们 选用 贝 叶 斯 统计 中 最 常见 的 beta 分 布 ， 作 为 先 验 ， 其 数学 形式 如 下 : 
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T(a+p) 

(0)= Fro)r (8) 

仔细 观察 上 面 的 式 子 可 以 看 出 ， 除 了 械 部 分 之 外 ，beta 分 布 和 二 项 分 布 看 起 

来 很 像 。 是 希腊 字母 中 大 写 的 伽 马 ， 用 来 表示 伽 马 函 数 。 现 在 我 们 只 需要 知道 ， 

用 分 数 表示 的 第 一 项 是 一 个 正则 化 常量 ， 用 来 保证 该 分 布 的 积分 为 1， 此 外 ，cw 

和 两 个 参数 用 来 控制 具体 的 分 布 形 态 。beta 分 布 是 我 们 到 目前 为 止 见 到 的 第 3 
个 分 布 ， 利 用 下 面 的 代码 ， 我 们 可 以 深入 了 解 其 形态 ; 


821 (1 oy 















































params = [0.5, 1, 2, 3] 





x = np.linspace(0, 1, 100) 
f, ax = plt.subplots(len(params), len(params), sharex=True, sharey=True) 
for i in range(4): 
for Jj] in range (4): 

a = params [Il] 

b = Params [可 ] 

y stats.betal(a, b) .pdt (x) 

ax[i,j] .plot (x, y) 

ax[i,j] .plot(0, 0, label="$\\alpka$ # 人 :3.2f}\n$\\beta$ = {:3.2f}". 

format (a, b), alpha=0) 


ll 


ax[i,j].legend (fontsize=12) 
ax[3,0] .set xlabel('$\\theta$', fontsize=]4) 
ax[0,0] .set ylabel('$p(\\theta)$', fontSs&ze=14) 
pltsavefig ("BO04958. 01 04.6ng": dpi=300; figsize=(8s 5 ‘5755)) 


p(0) 
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为 什么 要 在 模型 中 使 用 beta 分 布 呢 ?在 抛 硬币 以 及 一 些 其 他 问题 中 使 用 beta 
分 布 的 原因 之 一 是 : beta 分 布 的 范围 限制 在 0 到 1 之 间 ， 这 跟 我 们 的 参数 9 一样 ; 
另 一 个 原因 是 其 通用 性 ， 从 前 面 的 图 可 以 看 出 ， 该 分 布 可 以 有 多 种 形状 ， 包 括 
均匀 分 布 、 类 高 斯 分 布 、U 型 分 布 等 。 第 3 个 原因 是 : beta 分 布 是 二 项 分 布 〈 前 
面 我 们 使 用 了 该 分 布 描述 似 然 ) 的 共 斩 先 验 。 似 然 的 共 斩 先 验 是 指 ， 将 该 先 验 分 
布 与 似 然 组 合 在 一 起 之 后 ， 得 到 的 后 验 分 布 与 先 验 分 布 的 表达 式 形式 仍然 是 一 样 
的 。 简 单 说 ， 就 是 每 次 用 beta 分 布 作 为 先 验 、 二 项 分 布 作为 似 然 时 ， 我 们 会 得 到 
一 个 beta 分 布 的 后 验 。 除 beta 分 布 之 外 还 有 许多 其 他 共 恩 先 验 ， 例 如 高 斯 分 布 ， 
其 共 斩 先 验 就 是 自己 。 关 于 共 斩 先 验 更 详细 的 内 容 可 以 查看 https://en.wikipedia. 
org/wiki/Conjugate_prior。 许 多 年 来 ， 贝 叶 斯 分 析 都 限制 在 共 轿 先 验 范围 内 ， 这 
主要 是 因为 共 斩 能 让 后 验 在 数学 上 变 得 更 容易 处 理 ， 要 知道 贝 叶 斯 统计 中 一 个 常 
见 问 题 的 后 验 都 很 难 从 分 析 的 角度 去 解决 。 在 建立 合适 的 计算 方法 来 解决 任意 后 
验 之 前 ， 这 只 是 个 折 中 的 办 法 。 从 下 一 章 开 始 ， 我 们 将 学 习 如 何 使 用 现代 的 计算 
方法 来 解决 贝 叶 斯 问题 而 不 必 考 虑 是 否 使 用 共 轿 先 验 。 
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计算 后 验 
首先 回忆 一 下 贝 叶 斯 定理 : 后 验 正 比 于 似 然 乘 以 先 验 。 
p(0|y)™ p(y10)p(0) 


对 于 我 们 的 问题 而 言 ， 需 要 将 二 项 分 布 乘 以 beta 分 布 : 














有 T(a+p) 时 Bl 

0’(1- 0)*— ~ ~ g1(1-0 
现在 ， 对 上 式 进 行 简化 。 针 对 我 们 的 实际 问题 ， 可 以 先 把 与 9 不 相关 的 项 去 
掉 而 不 影响 结果 ， 于 是 得 到 下 式 : 


NI 
0 二 
ml bp 


AN 




















p(0|ly)«0(1-0) ”0 (1-0) 


重新 整理 之 后 得 到 : 


























Plo eo (0 














可 以 看 出 ， 上 式 和 beta 分 布 的 形式 很 像 〈 除 了 归 一 化 部 分 )， 其 对 应 的 参数 
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分 别 为 Cposterior = CQprior Ty poosterior 一 Prior N= 也 束 是 说 ， 在 抛 硬 币 这 个 
问题 中 ， 后 验 分 布 是 如 下 beta 分 布 : 








p(01y)= Beta(Qprior + y, Porior +N-y) 


计算 后 验 并 画图 

现在 已 经 有 了 后 验 的 表达 式 ， 我们 可 以 用 Python 对 其 计算 并 画 出 结果 。 
用 的 代码 中 ， 其 实 只 有 一 行 是 用 来 计算 后 验 结果 的 ， 其 余 的 代码 都 是 用 来 
全 的 : 





































































































国 二 
| 





theta real = 0.35 


tridals = [0 1; 2 3; 4 8 工人 32; 50; 150] 
data = [OQ; 1y 1; ly ly dr © 9 13, 48] 
beta params = [(1;y ls (05r "055); ‘(20 20)] 


dist = stats.beta 
x = np.linspace(0, 1, 100) 


for idx, N in enumerate (trials): 

if idx == 0: 
lt eubaLot(y., 3 2) 

else: 
bltsesubilot (dd ‘L043) 

y = datalidx] 

EO (a Or DBFior}) yr Sn Sip (beta parans,y (BL, El Wy)ys 
p_theta given y = dist.pdf (x, a prior + y, b prior + N - y) 
plt.plot (x, p_theta given y, Cc) 
plt.fill between (x, 0, p_ theta given y, color=c, alpha=0.6) 





plt.axvline (theta real, ymax=0.3, color="'k') 

plt.plot (0, 0, label="{:d} experiments\n{:d} heads" .format (N, y), alpha=0) 
plt.xlim(0,1) 

Plt.ylim(0; 12) 

plt.xlabel (r"$\thetas$") 

plt.legend () 

plt.gca() .axes.get yaxis().set visible(False) 


plt.tight layout() 
Plt. savefig("BO49S8 Ol VSBng da=300; tgsize=(ds Dr 23353) 
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0 experiments 
0 Rehds 


00 02 04 06 08 1.0 
DO 
1] experiments 2 experiments 3 exXperi 
Ue a 1 
00 02 04 06 08 10 00 02 04 06 08 10 00 02 04 06 08 1.0 
0 0 0 
4 experiments 8 experiments 16 experiments 
1 hebes 4 hebds 6 Fedds 
00 02 04 06 08 10 00 02 04 06 08 10 00 02 04 06 08 1.0 
0 0 0 
32 experiments 50 experiments 150 experiments 
9 heads 48 heads 
00 02 04 06 08 10 00 02 04 06 08 10 00 02 04 06 08 1.0 
f 0 [a 


在 上 图 的 第 一 行 中 ， 实 验 的 次 数 为 0， 因 此 第 一 个 图 中 的 曲线 描绘 的 是 先 验 
分 布 ， 其 中 有 3 条 曲线 ， 每 条 曲线 分 别 表示 一 种 先 验 。 


国 蓝 色 的 线 是 一 个 均匀 分 布 先 验 ， 其 含义 是 : 偏差 的 所 有 可 能 取 值 都 是 等 
概率 的 。 
国 红色 的 线 与 均匀 分 布 有 点 类 似 ， 对 抛 硬币 这 个 例子 而 言 可 以 理解 为 : 偏 
差 等 于 0 或 者 1 的 概率 要 比 其 他 值 更 大 一 些 。 
国 最 后 一 条 绿色 的 线 集中 在 中 间 值 0.5 附近 ， 该 分 布 反映 了 通常 硬币 正面 
朝 上 和 反面 朝 上 的 概率 大 致 是 差不多 的 。 我 们 也 可 以 称 ， 该 先 验 与 大 多 
数 硬 币 都 是 公平 的 这 一 信念 是 兼容 的 。“ 兼 容 ” 这 个 词 在 贝 叶 斯 相关 的 
讨论 中 会 经 常用 到 ， 特 别 是 在 提 及 受到 数据 启发 的 模型 时 。 
剩余 的 子 图 描绘 了 后 续 实 验 的 后 验 分 布 PLO|7)， 回 想 一 下 ， 后 验 可 以 看 
做 是 在 给 定数 据 之 后 更 新 了 的 先 验 。 实 验 〈 抛 硬币 ) 的 次 数 和 正面 朝 上 的 次 
数 分 别 标注 在 每 个 子 图 中 。 此 外 每 个 子 图 中 在 横 轴 0.35 附近 还 有 一 个 黑色 
的 紧 线 ， 表 示 的 是 真实 的 2， 显然， 在 真实 情况 下 ， 我 们 并 不 知道 该 值 ， 在 
这 里 标识 出 来 只 是 为 了 方便 理解 。 从 这 幅 图 中 可 以 学 到 很 多 贝 叶 斯 分 析 方 面 
的 知识 。 


国 贝 叶 斯 分 析 的 结果 是 后 验 分 布 而 不 是 某 个 值 ， 该 分 布 描述 了 根据 给 定数 
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据 和 模型 得 到 的 不 同 数值 的 可 能 性 。 


国 后 验 最 可 能 的 值 是 根据 后 验 分 布 的 形态 决定 的 (也 就 是 后 验 分 布 的 


峰值 ) 。 





国 后 验 分 布 的 离散 程度 与 我 们 对 参数 的 不 确定 性 相关 :分布 越 离散 ， 不 确 





定性 越 大 。 























国 尽管 1/2=4/8=0.3， 但 从 图 中 可 以 看 出 ， 前 者 的 不 确定 性 要 比 后 者 大 。 这 是 





验 分 布 上 。 


国 在 给 定 足 够 多 的 数据 时 ， 两 个 或 多 个 不 同 先 验 的 贝 叶 大 











因为 我 们 有 了 更 多 的 数据 来 支撑 我 们 的 推断 ， 














该 直觉 也 同时 反映 在 了 后 

















模型 会 趋 近 于 收 








敛 到 相同 的 结果 。 在 极限 情况 下 ， 如 果 有 无 限 多 的 数据 ， 不 论 我 们 使 用 
的 是 怎样 的 先 验 ， 最 终 都 会 得 到 相同 的 后 验 。 注 意 这 里 说 的 无 限 多 是 指 






































某 种 程度 而 非 某 个 具体 的 数量 ， 也 就 是 说 ， 从 实际 
况 下 无 限 多 的 数据 可 以 通过 比较 少量 的 数据 近似 。 






































国 不 同 后 验收 敛 到 相同 分 布 的 速度 取决 于 数据 和 模型 。 
以 看 出 ， 蓝 色 和 红色 的 后 验 在 经 过 /8 次 实验 之 后 就 很 难看 出 区 别 了 ， 














接 


= 

















的 角度 来 讲 ， 某 些 情 

















从 前 面 的 图 中 可 




















而 红色 的 曲线 则 一 直到 150 次 实验 之 后 才 与 另外 两 个 后 验 看 起 来 比较 








加 有 一 点 从 前 面 的 图 中 不 太 容 易 看 出 来 ， 如 果 我 们 一 步 一 步 地 更 新 后 验 ， 





























最 后 得 到 的 结果 跟 一 次 性 计算 得 到 的 结果 是 一 相 
以 对 后 验 分 150 次 计算 ， 每 次 增加 一 个 新 的 观测 数据 3 

















的 。 换 句 话 说， 我 们 可 











将 得 到 的 后 验 作 








为 下 一 次 计算 的 先 验 ， 也 可 以 在 得 到 150 次 抛 硬币 的 结果 之 后 一 次 性 计 
算出 后 验 ， 而 这 两 种 计算 方式 得 到 的 结果 是 完全 一 样 的 。 这 个 特点 非常 




















估计 值 。 


先 验 的 影响 以 及 如 何 选择 合适 的 先 验 
从 前 面 的 例子 可 以 看 出 ， 先 验 对 分 析 的 











意义 ， 在 许多 数据 分 析 的 问题 中 ， 每 当 我 们 得 到 新 的 数据 时 可 以 更 新 





结果 会 有 影响 。 一 些 贝 叶 斯 分 析 的 新 


手 《〈 以 及 一 些 认 毁 该 方法 的 人 ) 会 对 如 何 选择 先 验 感到 茫然， 














验 起 到 决定 性 作用 ， 而 是 更 希望 数据 本 身 替 














自己 说 话 ! 有 这 样 
































因为 他 们 不 希望 先 





的 想法 很 正常 ， 不 








过 我 们 得 牢记 ， 数 据 并 不 会 真 的 “说 话 ”， 只 有 在 模型 中 才 会 有 意义 ， 包 括 数学 











上 的 和 脑海 中 的 模型 。 面 对 同一 主题 下 的 同一 份 数据 ， 不 同人 会 有 不 同 的 看 法 ， 



































这 类 例子 在 科学 史上 有 许多 ， 查 看 以 下 链接 可 以 了 解 《纽约 时 报 》 最 近 一 


1.3 单 参数 推断 





次 实验 的 


例子 : http://www.nytimes.com/interactive/2016/09/20/upshot/the-error-the-polling-world- 


rarely-talks-about.html?_r=0。 

















先 验 


下 ， 我 们 
身 的 信息 。 由 于 这 
正则 化 先 验 。 





当然 ， 使 用 带 有 较 多 信息 量 的 强 
E 找 到 这 类 先 验 ， 例 如 在 我 工作 的 久 
通过 贝 叶 斯 或 者 非 贝 叶 斯 的 方式 来 了 解 和 预 涡 
EE 的 ， 原 因 是 我 们 在 数 十 年 间 已 经 从 上 干 次 精 
可 信和 的 先 验 信息 可 化 


可 能 


重 


外 
的 先 验 信息 ， 
计 
的 方式 。 








Tn 








现在 我 们 知道 了 先 验 有 许多 种 ， 不 过 
或 许 ， 最 好 是 没有 先 验 ， 





有 些 人 青睐 了 
)， 这 类 先 验 对 
Kruschke 3 人 的 建议 ， 
我 们 对 参数 可 以 取 的 值 一 般 都 会 有 些 了 
参数 近似 的 取 值 范围 ， 又 或 者 是 希望 该 值 
] 可 以 给 模型 加 入 一 些微 弱 的 先 验 信 
让 后 验 近 似 位 于 某 一 合理 的 边界 内 ， 


很 容易 或 者 很 
人 们 会 尽 可 能 地 利 
白质 的 结构 。 这 样 做 是 合 到 
的 实验 中 收集 了 数据 ， 因 而 有 大 量 
完全 没有 到 
新 车 的 时 候 ，{ 











使 用 没有 信息 
分 析 过 程 的 影 











响 最 小 。 














类 先 验 会 



































j 先 验 信息 ， 




















更 倾向 于 使 用 
























































由 不 去 使 








b 都 要 重新 


























用 。 


量 的 先 验 〈 也 称 作 均匀 的 、 


含糊 的 或 者 发 散 的 


本 书 将 遵循 Gelman、McElreath 和 





接近 0 或 大 于 /小 于 某 








带 有 较 弱 信息 量 的 先 验 。 在 许多 问题 中 ， 
解 ， 比 如 ， 参 数 只 能 是 正 数 ， 或 者 知道 








于。 这 种 情 


况 


恩 而 不 必 担 心 该 先 验 会 掩 新 数据 本 





先 验 也 是 可 行 的 。 视 具体 的 问题 不 同 ， 


大 页 域 ( 








因此 也 被 称 作 





有 








结构 生物 信息 学 ) 











| 


心 设 
































不 能 








绥 解 我 们 选择 先 验 时 的 焦虑 。 


使 用 。 如 果 你 有 可 信 





试想 一 下 ， 如 果 一 个 汽车 工程 师 每 次 设 
发 明 内 燃 机 、 轮 子 乃 至 整个 汽车 ， 














这 显然 不 是 正 











人 确 


















































都 在 某 种 程度 上 





有 先 








频率 统计 学 方面 



































验 。 让 我 们 再 仔 
中 9 的 期 望 








， 这 里 








昌 看 看 前 面 那 幅 图 ， 


























值 是 一 致 的 : 

















@ 


这 样 事情 束 简 单 
验 ， 即 使 这 里 的 先 验 3 
的 结果 可 以 看 做 是 贝 叶 斯 模型 在 一 定 条 件 下 的 特例 ， 
到 蓝 色 后 验 分 布 的 峰值 与 频率 学 分 析 





这 3 
了 。 


不 过 ， 不 

















论 是 否 基于 贝 叶 斯 ， 模 型 














二 





可 以 























没有 明确 











O=y/N 


上 表示 出 来 。 事 实 上 ， 许 多 





比如 均匀 先 











5 计 而 不 是 后 验 分 布 (或 者 








他 





类 型 的 分 布 )。 由 此 看 出 ， 























该 3 人 分 别 是 《Bayesian Data Analysis》《Statistical Rethinking: A Bayesian Course with Examples 
inR and Stan》 和 《Doing Bayesian Data Analysis》 的 主要 作者 。 一 一 译 者 注 
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你 没 办 法 






































序 渐进 的 








过 程 可 能 只 有 你 自己 ， 有 时 候 则 可 能 包含 你 不 认识 的 人 。 而 是 



































要 ， 而 模型 中 透明 的 假设 能 有 助 于 复 现 。 















































全 避免 先 验 ， 不 过 如 果 你 在 分 析 中 引入 先 验 ， 得 到 的 会 是 概率 分 布 分 
最 可 能 的 一 个 值 。 明 确 引 入 先 验 的 另 一 个 好 处 是 ， 我 们 会 得 到 更 透明 
意味 着 更 容易 评判 、( 广 义 上 的 ) 调试 以 及 优化 。 构 建 横 型 是 一 个 循 
程 ， 有 时 候 可 能 只 需要 几 分 钟 ， 有 时 候 则 可 能 需要 数 年 ， 有 时 候 整 个 
| ， 模 型 复 现 很 重 


在 特定 分 析 任 务 中 ， 如 果 我 们 对 某 个 先 验 或 者 似 然 不 确定 ， 可 以 自由 使 用 多 
个 先 验 或 者 似 然 进行 尝试 。 模 型 构建 过 程 中 的 一 个 环节 就 是 质疑 假设 ， 而 先 验 就 
是 质疑 的 对 象 之 一 。 不 同 的 假设 会 得 到 不 同 的 模型 ， 根 据 数 据 和 与 问题 相关 的 领 
域 知识 ， 我 们 可 以 对 这 些 模型 进行 比较 ， 本 书 第 6 章 模型 比较 部 分 会 深入 讨论 该 

















内 容 。 














由 于 先 验 是 贝 叶 斯 统计 中 的 一 个 核心 内 容 ， 在 接 下 来 遇 到 新 的 问题 时 我 们 还 





会 反复 讨论 它 ， 因 此 ， 如 果 你 对 前 面 的 讨论 内 容 感到 有 些 疑 惑 ， 














道人 们 在 这 个 问题 上 已 经 困惑 了 数 十 年 并 且 相 关 的 讨论 一 直 在 继续 。 























1.3.2 ”报告 贝 叶 斯 分 析 结 果 














现在 我 们 已 经 有 了 后 验 ， 相 关 的 分 析 也 就 结束 了 了。 





























析 结 果 进行 总 结 ， 将 分 析 结 果 与 别人 分 享 ， 或 者 记录 下 来 以 备 日 后 使 用 。 


1.3.3 ”模型 注释 和 可 视 化 

















别 太 担心 ， 要 知 


下 面 我 们 可 能 还 需要 对 分 


根据 受众 不 同 ， 你 可 能 在 交流 分 析 结 果 的 同时 还 需要 交流 模型 。 以 下 是 一 种 





单 表示 概率 模型 的 常见 方式 : 


图 0~ Beta(&,p) 
国 y~ Bin(n=1,p=0) 


EN 
| 加 


























这 是 我 们 抛 重 币 例 子 中 用 到 的 模型 。 符 号 一 表示 左边 随机 变量 的 分 布 服从 

















2 


加 | 





边 的 分 布 形 式 ， 也 就 是 说 ， 这 里 96 服从 于 参数 为 a 和 8 的 Beta 分 布 而 y 服 从 














于 参数 为 n= 1 和 p = 0 的 二 项 分 布 。 该 模型 还 可 以 





类 似 Kruschke 





示 成 如 下 形式 : 





中 的 医 





代 











0， 


beta 


_ jbinomial , n=] 


| 


于 




















在 第 一 层 ， 






























































1.3 ” 单 参 数 推断 








根据 先 验 生成 了 96， 然后 通过 似 然 生 成 最 下 面 的 数据 。 图 中 的 箭 
头 表示 变量 之 间 的 依赖 关系 ， 符 号 一 表示 变革 


本 书 中 用 到 的 类 似 Kruschke 中 的 图 都 是 


的 随机 性 。 


Rasmus Baath (http:/www.sumsar. 


net/blog/2013/10/diy-kruschke-style-diagrams/) 提供 的 模板 生成 的 。 


1.3.4 





总 结 后 验 
贝 叶 斯 分 析 的 结果 是 后 验 分 布 ， 该 分 布 包含 了 有 关 参 数 在 给 定数 据 和 模型 下 




















的 所 有 信息 。 如 果 可 能 的 话 ， 我 们 只 需要 将 后 验 分 布展 示 给 观众 即 可 。 通 常 ， 一 


个 不 错 的 做 法 是 : 同时 给 
们 了 解 该 分 布 的 中 心 ， 此 外 还 可 以 给 出 
这 样 人 们 能 对 我 们 估计 的 离散 程度 和 不 确 
类 似 正 态 分 布 的 后 验 分 布 很 合适 ， 不 过 对 于 一 些 其 
却 可 能 得 出 误导 性 结论 ， 因 此 ， 我 们 还 可 以 采 























8 后 验 分 布 的 均值 




















(或 者 众 数 、 中 位 数 )， 这 样 能 让 我 





些 描述 该 分 布 的 衡量 指标 ， 如 标准 差 ， 























定 怡 





E 有 


个 大 致 的 了 解 。 拿 标准 差 衡量 





























他 类 型 的 分 布 ( 如 偏 态 分 布 ) 











最 大 后 验 密度 
一 个 经 常用 来 描述 后 验 分 布 分 散 程度 的 概念 是 最 大 后 验 密度 〈 Highest Posterior 
Density，HPD) 区 间 。 一 个 HPD 区 间 是 指 包 含 一 定 比例 概率 密度 的 最 小 区 间 ， 


忆 党 


多 见 的 比例 是 95%HPD 或 98%HPD， 通 常 还 伴随 着 一 个 50%HPD。 如 果 我 们 


取 间 



































下 面 的 方式 衡量 。 





























说 某 个 分 析 的 HPD 区 间 是 [2, 5]， 其 含义 是 指 : 
既 率 是 0.95。 这 是 一 个 非常 直观 的 解释 ， 以 至 于 人 们 经 常会 将 频 


位 卫 








F 2 一 5 的 


























民 据 我 们 的 模型 和 数据 ， 参 数 
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率 学 中 的 置信 区 间 与 贝 叶 斯 方法 中 的 可 信 区 间 弄 混淆 。 如 果 你 对 频率 学 的 范式 
比较 熟悉 ， 请 注意 这 两 种 区 间 的 区 别 。 贝 叶 斯 学 派 的 分 析 告 诉 我 们 的 是 参数 取 
值 的 概率 ， 这 在 频率 学 的 框架 中 是 不 可 能 的 ， 因 为 频率 学 中 的 参数 是 固定 值 ， 
频率 学 中 的 置信 区 间 只 能 包含 或 不 包含 参数 的 真实 值 。 在 继续 深入 之 前 ， 有 一 


































































































点 需要 注意 : 选择 95% 还 是 50% 或 者 其 他 什么 值 作为 HPD 区 间 的 概率 密度 比 
例 并 没有 什么 特殊 的 地 方 ， 这 些 不 过 是 经 常 使 用 的 值 罢 了 。 比 如 ， 我 们 完全 可 








以 选用 比例 为 91.37% 的 HPD 区 间 。 如 果 你 选 的 是 95%， 这 完全 没 问 题 ， 只 是 





















































要 记 住 这 只 是 个 默认 值 ， 究 竟 选 择 多 大 比例 仍然 需要 具体 问题 具体 分 析 。 





对 单 


def 


Ds 
ie 
DaiV 


从 下 下 











条 分 布 计算 95%HPD 很 简单 ， 只 需要 计算 出 2.5% 和 97.5% 处 的 值 即 可 : 





naive hpd (post): 

sns.kdeplot (post) 

HPD = np.percentile(post, [2.5, 97.5]) 

plt.plot (HPD, [0, 0], label='HPD {:.2f} {:.2f}'.format (*HPD), 
linewidth=8, color="'k') 

plt.legend (fontsize=16); 

plt.xlabel(r'$\theta$', fontsize=14) 

plt.gca() .axes.get yaxis().set ticks([]) 


andom.seed(1) 

= stats.beta.rvs(5, 11, size=1000) 
e_hpd (post) 
xlim(0, 1) 


eww HPD (0.13 (0.57 


0.0 0.2 0.4 0.6 0.8 1.0 
0 

















对 于 多 峰 分 布 而 言 ， 计 算 HPD 要 稍微 复杂 些 。 如 果 把 对 HPD 的 原始 定义 应 























j 到 混合 高 斯 分 布 上 ， 我 们 可 以 得 到 ; 





np.random.seed (1) 


1.3 单 参数 推断 





size=3000) 
ize=2000) 


gauss a = stats.norm.rvs (loc=4, scale=0.9, 
gauss_b = stats.norm.rvs (loc=-2, scale=1l, s 
mix norm = np.concatenate((gauss a, gauss b)) 


naive hpd (mix norm) 





plt.savefig ("BO04958 01 08.png': dpi=300, figsize=(5:5; 55)) 
mm HPD-3.53 5.54 
-8 -6 -4 =2 0 2 4 6 8 10 
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[| 








从 上 图 可 以 看 出 ， 通 过 原始 HPD 定义 计算 
较 低 的 区 间 ， 位 于 [0,2]。 为 了 正厅 
函数 ， 你 可 以 从 本 


from pLot. post, imeort pLot POsSt 
roundto=2, alpha=0.05) 























plot post (mix norm, 


plt.legend (loc=0, fontsize=16) 


plt.xlabel (r"$\theta$", fontsize=14) 


mode=-1.93 4.02 
hpd 95% 

-4.060.16 
0 2G1 





角 计 算出 HPD， 
附带 的 代码 中 下 载 对 应 的 源码 : 


的 可 信和 区间 包含 了 一 部 分 概率 
有 我们 使 用 了 plot post 


» 


这 上 
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从 上 图 可 以 看 出 ，95%HPD 包含 两 个 区 间 ， 同 时 plot _post 函数 也 返回 了 
两 个 众 数 。 





1.4 ”后 验 预测 检查 

贝 叶 斯 方法 的 一 个 优势 是 : 一 旦 得 到 了 后 验 分 布 ， 我 们 可 以 根据 该 后 验 生成 
未 来 的 数据 y， 即 用 来 做 预测 。 后 验 预 测 检查 主要 是 对 观测 数据 和 预测 数据 进行 
比较 从 而 发 现 这 两 个 集合 的 不 同 之 处 ， 甚 目的 是 进行 一 致 性 检查 。 生 成 的 数据 和 
观测 的 数据 应 该 看 起 来 差不多 ， 否 则 有 可 能 是 建 模 出 现 了 问题 或 者 输入 数据 到 模 
型 时 出 了 问题 ， 不 过 就 算 我 们 没有 出 错 ， 两 个 集合 仍然 有 可 能 出 现 不 同 。 尝 试 去 
理解 其 中 的 偏差 有 助 于 我 们 改进 模型 ， 或 者 至 少 能 知道 我 们 模型 的 极限 。 即 使 我 
们 并 不 知道 如 何 去 改 进 模型 ， 但 是 理解 模型 捕捉 到 了 问题 或 数据 的 哪些 方面 以 及 
没 能 捕捉 到 哪些 方面 也 是 非常 有 用 的 信息 。 也 许 模型 能 够 很 好 地 捕捉 到 数据 中 的 
均值 但 却 没 法 预测 出 罕见 值 ， 这 可 能 是 个 问题 ,不 过 如 果 我 们 只 关心 均值 ， 这 个 
模型 对 我 们 而 言 也 还 是 可 用 的 。 通 常 我 们 的 目的 不 是 去 声称 一 个 模型 是 错误 的 ， 
我 们 更 愿意 遵循 George Box 的 建议 ， 即 所 有 模型 都 是 错 的 ， 但 某 些 是 有 用 的 。 
我 们 只 想 知 道 模 型 的 哪个 部 分 是 值得 信任 的 并 测试 该 模型 是 否 在 特定 方面 符合 
我 们 的 预期 。 不 同学 科 对 模型 的 信任 程度 显然 是 不 同 的 ， 物 理学 中 研究 的 系统 是 
在 高 可 控 条 件 下 依据 高 深 理 论 运行 的 ， 因 而 模型 可 以 看 做 是 对 现实 的 不 错 描述 ， 
而 在 一 些 其 他 学 科 如 社会 学 和 生物 学 中 ， 研 究 的 是 错综复杂 的 孤立 系统 ， 因 而 模 
型 对 系统 的 认 知 较 弱 。 尽 管 如 此 ， 不 论 你 研究 的 是 哪 一 门 学 科 ， 都 需要 对 模型 进 
行 检查 ， 利 用 后 验 预 测 和 本 章 学 到 的 探索 式 数据 分 析 中 的 方法 去 检查 模型 。 





















































































































































































































































































































































1.5 “安装 必要 的 Python 库 
本 书 用 到 的 代码 是 用 Python 3.5 写 的 ， 建 议 使 用 Python 3 的 最 新 版 本 运行 ， 
大 多 数 代码 也 能 在 更 老 的 Python 版 本 (包括 Python 2.7) 上 运行 ， 不 过 可 能 


尽管 
会 需要 做 些微 调 。 






































本 书 建议 使 用 Anaconda 安装 Python 及 相关 库 ，Anaconda 是 一 个 用 于 科学 
计算 的 软件 分 发 ， 你 可 以 从 以 下 链接 下 载 并 了 解 更 多 : https:/www.continuum.io/ 
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1.7 练习 








downloads。 在 系统 上 装 好 Anaconda 之 后 ， 就 可 以 通过 以 下 方式 安装 Python 库 了 : 
conda install NamePackage 


我 们 会 用 到 以 下 Python 库 : 




















Ipython 5.0; 
NumPy 1.11.1; 
SciPy 0.18.1; 
Pandas 0.18.1; 
Matplotlib 1.5.3; 
Seaborn 0.7.1; 
PyMC3 3.0。 





在 命令 行 中 执行 以 下 命令 即 可 安装 最 新 稳定 版 的 PyMC3: 


pip install pymc3 


1.6 总 结 


我 们 的 贝 叶 斯 之 旅 首先 围绕 统计 建 模 、 概 率 论 和 贝 叶 斯 定理 做 了 一 些 简 短 讨 
论 ， 然 后 用 抛 硬 币 的 例子 介绍 了 贝 叶 斯 建 模 和 数据 分 析 ， 借 用 这 个 经 典 例子 传达 
了 贝 叶 斯 统计 中 的 一 些 最 重要 的 思想 ， 比 如 用 概率 分 布 构建 模型 并 用 概率 分 布 来 
表示 不 确定 性 。 此 外 我 们 尝试 揭示 了 如 何 选择 先 验 ， 并 将 其 与 数据 分 析 中 的 一 些 
其 他 问题 置 于 同等 地 位 (怎么 选择 似 然 ， 为 什么 要 解决 该 问题 等 ;。 本 章 的 最 后 
讨论 了 如 何 解释 和 报告 贝 叶 斯 分 析 的 结果 。 本 章 我 们 对 贝 叶 斯 分 析 的 一 些 主要 方 
面 做 了 简要 总 结 ， 后 面 还 会 重新 回顾 这 些 内 容 ， 从 而 充分 理解 和 吸收 ， 并 为 后 面 
理解 更 高 级 的 内 容 打 下 基础 。 下 一 章 我 们 会 重点 关注 一 些 构建 和 分 析 更 复杂 模型 
的 技巧 ， 此 外 ， 还 会 介绍 PyMC3 并 将 其 用 于 实现 和 分 析 贝 叶 斯 模型 。 





















































































































































1.7 练习 


我 们 尚 不 清楚 大 脑 是 如 何 运 作 的 ， 是 按照 贝 叶 斯 方式 ? 还 是 类 似 贝 叶 斯 的 某 
种 方式 ? 又 或 许 是 进化 过 程 中 形成 的 某 种 启发 式 的 方式 ? 不 管 如 何 ， 我 们 至 少 知 




















pa 
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道 自己 是 通过 数据 、 例 子 和 练习 来 学 习 的 ， 尽 管 你 可 能 对 此 有 不 同 的 意见 ， 不 过 
我 仍然 强烈 建议 你 完成 以 下 练习 。 
(1) 修改 生成 本 章 的 第 3 个 图 的 代码 ， 在 图 中 增加 一 条 竖 线 用 来 表示 观测 到 
的 正面 朝 上 的 比例 (正面 朝 上 的 次 数 / 抛 硬币 的 次 数 )， 将 该 竖 线 的 位 置 与 每 个 
子 图 中 后 验 的 众 数 进行 比较 。 
(2) 尝试 用 不 同 的 先 验 参 数 (beta 值 〉 和 不 同 的 实验 数据 (正面 朝 上 的 次 数 
和 实验 次 数 ) 重新 绘制 本 章 的 第 3 个 图 。 
(3) 阅读 维基 百科 上 有 关 Cromwell 准则 的 内 容 : https://en.wikipedia.org/wiki/ 


Cromwell%27Ss rule。 


(4) 探索 不 同 参数 下 高 斯 分 布 、 二 项 分 布 和 beta 分 布 的 图 像 ， 你 可 以 为 每 
个 分 布 单独 画 一 个 图 而 不 是 全 都 画 在 一 个 网 格 中 。 
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概率 编程 一 -PyMC3 编程 指南 

















前 面 我 们 已 经 对 贝 叶 斯 统计 有 了 初步 了 解 ， 接 下 来 将 学 习 如 何 利用 一 些 计算 
工具 构建 概率 模型 ， 还 将 学 习 概 率 编程 。 主 要 目的 是 利用 代码 描述 模型 并 用 其 进 
行 推断 ， 当 然 这 并 非 因为 我 们 太 懒 了 所 以 才 没 有 采用 数学 的 方法 去 推断 ， 也 不 是 
因为 我 们 是 最 棒 的 极 客 〈 做 梦 都 在 写 代 码 ……)。 该 决定 主要 基于 这 样 一 个 原因 : 
许多 模型 都 没有 一 个 封闭 的 解析 后 验 ， 也 就 是 说 我 们 只 能 使 用 数值 的 方法 计算 后 
验 。 学 习 概 率 编程 的 另 一 个 原因 是 : 现代 的 贝 叶 斯 统计 主要 是 通过 编程 实现 的 ， 
概率 编程 提供 了 一 个 有 效 的 方式 去 构建 复杂 模型 ， 它 让 我 们 更 加 关注 模型 设计 、 
评估 和 和 解释， 而 不 用 过 多 地 考虑 数学 或 计算 细节 。 

本 章 我 们 将 学 习 贝 叶 斯 统计 中 的 数值 计算 方法 以 及 如 何 使 用 PyMC3。 
PyMC3 是 概率 编程 中 一 个 非常 灵活 的 库 ， 了 解 PyMC3 有 助 于 我 们 从 更 实用 的 角 
度 学 习 更 高 级 的 贝 叶 斯 概念 。 

本 章 涵盖 以 下 主题 : 
概率 编程 ; 
推断 引擎 ; 

PyMC3 指南 ; 
重 温 抛 硬币 问题 ; 
模型 检查 和 诊断 。 



































































































































































































































2.1 概率 编程 

贝 叶 斯 统计 的 概念 很 简单 ， 我 们 有 一 些 固定 的 数据 《固定 的 意思 是 指 我 们 无 
法 改变 观测 值 )， 和 一 些 感 兴趣 的 参数 ， 剩 下 要 做 的 就 是 探索 这 些 参 数 可 能 的 取 
值 ， 其 中 所 有 的 不 确定 性 都 通过 概率 进行 建 模 。 在 别 的 统计 学 范式 中 ， 未 知 量 有 
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多 种 不 同 的 表示 方式 ， 而 在 贝 叶 斯 的 框架 中 ， 所 有 未 知 量 都 是 同等 对 待 的 ， 如 果 
不 知道 某 个 变量 ， 我 们 就 给 其 赋予 一 个 概率 分 布 。 因 此 ， 贝 叶 斯 定理 就 是 将 先 验 
概率 分 布 PCO)《〈 在 观测 到 数据 之 前 我 们 对 问题 的 理解 ) 转化 成 后 验 分 布 P(O1D) 
(观测 到 数据 之 后 所 得 到 的 信息 )， 换 句 话 说 ， 贝 叶 斯 统计 就 是 一 种 机 器 学 习 的 























过 程 。 

























































































尽管 概念 上 很 简单 ， 纯 粹 的 概率 模型 得 到 的 表达 式 通 常 分 析 起 来 很 禁 手 。 许 








多 年 来 ， 这 都 是 一 个 问题 ， 大 概 也 
































任 断 部 分 就 可 以 自动 完成 了 。 



































能 ， 这 极 大 地 促进 了 贝 叶 斯 方法 的 应 用 。 
引擎 ， 按 照 PyMC3 的 核心 开发 者 之 一 Thomas Wiecki 的 说 法 ， 只 需要 按 下 按钮 ， 











是 影响 贝 叶 斯 方法 广泛 应 用 的 最 大 原因 之 一 。 
随 着 计算 时 代 的 到 来 ， 数 值 化 方法 的 发 展 使 得 计算 几乎 任意 模型 的 后 验 成 为 了 可 












































我 们 可 以 把 这 些 数值 化 方法 当 作 通用 




















自动 化 推断 促进 了 概率 编程 语言 的 发 展 ， 从 而 使 得 模型 构建 和 推断 相 分 离 。 
在 概率 编程 语言 的 框架 中 ， 用 户 只 需要 寥寥 数 行 代码 描述 概率 模型 ， 后 面 的 推断 









































过 程 就 能 自动 完成 了 。 概 率 编程 使 得 人 们 能 够 更 快速 地 构建 复杂 的 概率 模型 并 减 
少 出 错 的 可 能 ， 可 以 预见 ， 这 将 给 数据 科学 和 其 他 学 科 带 来 极 大 的 影响 。 


我 认为 ， 编 程 语言 对 科学 计算 的 影响 可 以 与 60 多 年 前 Fortran 语言 的 问世 
相对 比 。 尽 管 如 今 Fortran 语言 风光 不 再 ， 不 过 在 当时 Fortran 语言 被 认为 是 相 
当 革 命 性 的 。 科 学 家 们 第 一 次 从 计算 的 细节 中 解放 出 来 ， 开 始 用 一 种 更 自然 的 
方式 关注 构建 数值 化 的 方法 、 模 型 和 仿真 系统 。 类 似 地 ， 概 率 编程 将 处 理 概 

















率 和 推断 的 过 程 对 用 户 隐 藏 起 来 ， 从 而 使 得 用 户 更 多 的 去 关注 模型 构建 和 结 





果 分 析 。 


2.1.1 推断 引擎 


即便 某 些 情况 下 不 太 可 能 从 分 析 的 角度 得 到 后 验 ， 我 们 也 有 办 法 将 后 验 计算 
































出 来 ， 其 中 一 些 方法 列举 如 下 。 
(1) 非 马 尔 科 夫 方 法 : 


国 网 格 计算 ; 
国 二 次 近似 ; 






















































































2.1 概率 编程 





国 变 分 方法 。 
(2) 马尔 科 夫 方法 : 


国 Metropolis-Hastings 算法 ; 
国 汉密尔顿 蒙特 卡 洛 方法 (Hamiltonian Monte Carlo) /不 掉 向 采样 (No U- 
Turn Sampler, NUTS) 。 

















如 今 ， 贝 叶 斯 分 析 主 要 是 通过 马尔 科 夫 链 蒙 特 卡 洛 (Markov Chain Monte 
Carlo，MCMC) 方法 进行 ， 同 时 变 分 方法 也 越 来 越 流 行 ， 特 别 是 在 一 些 较 大 的 
数据 集 上 。 学 习 贝 叶 斯 分 析 并 不 需要 完全 掌握 这 些 方 法 ， 不 过 从 概念 层面 上 对 它 
们 的 工作 原理 有 一 定 了 解 会 很 有 帮助 ， 比 如 调试 模型 。 























非 马 尔 科 夫 方 法 

我 们 首先 讨论 基于 非 马 尔 科 夫 方 法 的 推断 引擎 。 非 马尔 科 夫 方法 在 低 维 的 问 
题 上 要 比 马 尔 科 夫 方法 更 快 ， 对 于 某 些 问题 ， 这 类 方法 非常 有 用 ， 而 对 另外 一 些 
问题 ， 这 类 方法 只 能 提供 真实 后 验 的 粗略 近似 ， 不 过 没关系 ， 它 们 可 以 为 马尔 科 
夫 方 法 提供 一 个 不 错 的 初始 点 ， 后 面 我 们 会 介绍 马尔 科 夫 的 含义 。 
























































1， 网 格 计 算 


网 格 计算 是 一 种 暴力 穷 举 的 方法 。 即 便 你 无 法 计算 出 整个 后 验 ， 你 也 可 以 根 
据 一 些 点 计算 出 先 验 和 似 然 。 假 设 我 们 要 计算 某 个 单 参数 模型 的 后 验 ， 网 格 近似 
可 以 按照 如 下 方式 进行 : 


国 确定 参数 的 一 个 合理 区 间 《〈 先 验 会 给 你 点 提示 ) ; 
国 在 以 上 区 间 确 定 一 些 网 格 点 (通常 是 等 距离 的 ); 
国 对 于 网 格 中 的 每 个 点 计算 先 验 和 似 然 。 


视 情 况 ， 我 们 可 能 会 对 计算 结果 进行 归 一 化 〈 把 每 个 点 的 计算 结果 除 以 所 有 
点 的 计算 结果 之 和 )。 


很 容易 看 出 ， 选 的 点 越 多 (网 格 越 密 ) 近似 的 结果 就 越 好 。 事 实 上 ， 如 果 使 
j 无 限 多 的 点 ， 我 们 可 以 得 到 准确 的 后 验 。 网 格 计算 的 方法 不 能 很 好 地 适用 于 多 
数 〈 又 或 者 称 多 维度 ) 的 场景 ， 随 着 参数 的 增加 ， 采 样 空间 相 比 后 验 空间 会 急 
增加 ， 换 言 之 ， 我 们 花费 了 大 量 时 间 计算 后 验 值 ， 但 对 于 估计 后 验 却 几 乎 没有 
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帮助 ， 因 而 使 得 该 方法 对 于 大 多 数 统计 学 和 数据 科学 的 问题 都 不 太 实用 。 
下 面 的 代码 用 网 格 计算 的 方法 解决 第 一 章 中 的 抛 硬 币 问题 : 








def posterior gridl(grid points=100, heads=6, tosses=9): 


mmnm 


A grid implementation for the coin-flip problem 
grid = np.linspace(0, 1, grid points) 

prior = np.repeat (5, grid points) 

likelihood = stats.binom.pmf (heads, tosses, grid) 
unstd posterior = likelihood * prior 

posterior = unstd posterior / unstd posterior.sunm() 


return grid, posterior 


假设 4 次 抛 硬币 实验 中 只 有 一 次 观测 到 正面 朝 上 ， 那 么 就 有 : 




















points = 15 

hr N= 1 #4 

grid, posterior = posterior gridl(points, h, n) 

plt.plot (grid, posterior, 'o-', label='headsw=" {Tatosses = {}'.format(h, n)) 
plt.xlabel (r'$\thetas$') 

plt.legend (loc=0) 


0.16 


heads=1 
tosses=4 





0.0 0.2 0.4 0.6 0.8 1.0 


二 次 近似 ， 也 称 拉 普 拉 斯 方法 或 者 正 态 近似 ， 利 用 的 是 高 斯 分 布 来 近似 后 
验 。 该 方法 通常 很 有 效 ， 原 因 是 后 验 分 布 众 数 附近 的 区 域 通常 是 服从 正 态 分 布 
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(GD ”可 阅读 https://zh.wikipedia.org/wiki/ 维 数 灾难 ， 了 解 更 多 信息 。 一 一 译 者 注 
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的 ， 事 实 上 很 多 情况 下 就 是 高 斯 分 布 。 二 次 近似 的 计算 过 程 分 为 两 步 。 首 先 ， 找 
出 后 验 分 布 的 峰值 ， 该 值 可 以 通过 一 些 最 优化 算法 得 到 (有 许多 开 箱 即 用 的 算法 
] 来 求解 函数 的 最 大 值 或 最 小 值 )， 这 样 我 们 得 到 了 用 来 近似 的 高 斯 分 布 的 均值 ; 
然后 估计 函数 在 众 数 附近 的 曲率 ， 根 据 该 曲率 可 以 得 出 近似 高 斯 分 布 的 标准 差 。 
在 介绍 完 PyMC3 之 后 ， 我 们 会 讲解 如 何 使 用 该 方法 。 






































































































































3， 变 分 方法 

















现代 的 贝 叶 斯 统计 学 大 多 都 采用 马尔 科 夫 方法 〈 下 一 节 会 介绍 ) ， 不 过 该 方 
法 对 某 些 问题 求解 很 慢 而 且 不 能 很 好 地 并 行 计算 。 一 种 简单 的 做 法 是 同时 运行 多 
个 马尔 科 夫 链 ， 然 后 将 结果 合并 ， 不 过 对 大 多 数 问题 而 言 这 并 不 是 一 个 合适 的 解 
决 方案 ， 如 何 找到 有 效 的 并 行 计算 方式 是 当前 的 一 个 研究 热点 。 

对 于 较 大 的 数据 集 或 是 某 些 计算 量 很 大 的 似 然而 言 ， 变 分 方法 是 一 个 更 好 的 
选择 。 此 外 ， 这 类 方法 能 快速 得 到 后 验 的 近似 ， 为 MCMC 方法 提供 初始 点 。 

变 分 方法 的 基本 思想 是 用 一 个 更 简单 的 分 布 去 近似 后 验 ， 这 听 起 来 有 点 像 拉 
普 拉 斯 近似 ， 不 过 深入 细节 你 会 发 现 二 者 有 很 大 不 同 。 变 分 方法 的 最 大 缺点 是 我 
们 必须 对 每 个 模型 设计 一 个 特定 的 算法 ， 因 而 变 分 方法 并 不 是 一 个 通用 的 推断 引 
擎 ， 而 是 与 模型 相关 的 。 

当然 ， 许 多 人 都 在 答 试 将 变 分 方法 自动 化 。 最 近 提 出 的 一 个 方法 是 自动 
差分 变 分 推断 (Automatic Differentiation Variational Inference，ADVI)( 查 
看 http://arxiv.org/abs/1603.00788 了 解 更 多 )。 从 概念 层面 上 讲 ，ADVI 是 按 
下 面 步骤 工作 的 。 

(1 ) 对 参数 进行 变换 从 而 使 得 它们 位 于 整个 实 轴 上 。 例 如 ， 假 设 一 个 参数 限 
定 为 正 数 ， 对 其 求 log 后 得 到 的 值 位 于 无 界 区 间 [- <e ,+ ce ] 内。 

(2) 用 高 斯 分 布 对 无 界 参数 近似 。 需 要 注意 ， 转 换 后 参数 空间 里 的 高 斯 分 布 
在 原来 参数 空间 内 是 非 高 期 的， 这 也 是 与 拉 普 拉 斯 近似 方法 的 不 同 点 。 

(3) 采用 某 种 优化 算法 使 得 高 斯 近似 的 结果 尽 可 能 接近 后 验 ， 该 过 程 通过 最 
大 化 证 据 下 界 〈(Evidence Lower Bound，ELBO) 实现 。 如 何 衡量 两 个 分 布 的 相似 
性 以 及 证 据 下 界 的 具体 含义 都 是 一 些 数 学 细节 。 

























































































































































































































































































第 2 章 ”概率 编 程 一 一 PyMC3 编程 指南 





ADVI 算法 已 经 在 PyMC3 中 实现 了 ， 本 书后 面 会 使 


马尔 科 夫 方法 




































































] 到 ]。 


有 许多 相关 的 方法 都 称 MCMC 方法 。 对 于 网 格 计算 近似 方法 而 言 ， 我 们 需 





要 根据 给 定 的 点 计算 出 似 然 和 先 验 ， 并 且 近 似 出 整个 后 验 分 布 。MCMC 方法 要 比 





网 格 近 似 更 好 ， 这 是 因为 其 设计 思想 是 将 更 多 的 时 间 用 于 















































间 中 的 不 同 区 间 。 





在 较 低 概率 区 间 花 费 较 少 时 间 。 事 实 上 ，MCMC 方法 会 根 























高 概率 区 域 的 计算 ， 而 
据 相 对 概率 访问 参数 空 





如 果 区 间 4 的 概率 是 区 间 B 的 两 倍 ， 那 么 我 们 从 区 间 4 采样 的 
次 数 可 能 是 从 区 间 8B 采样 次 数 的 两 倍 。 因 此 ， 即 使 我 们 无 法 从 分 析 的 角度 得 到 整 








个 后 验 ， 我 们 也 可 以 采 





马尔 科 夫 链 部 分 。 


1， 蒙特 卡 洛 





蒙特 卡 洛 这 部 分 可 以 用 随机 数 的 应 用 来 解释 。 


非常 广泛 的 算法 ， 












































] MCMC 的 方法 从 中 采样 ， 并 且 采 样 数 越 多 ， 效 果 越 好 。 
要 理解 MCMC 方法 ， 我 们 先 将 其 拆 分 成 两 个 MC 音 





分 ， 即 蒙特 卡 洛 部 分 和 


蒙特 卡 洛 方法 是 一 系列 应 用 








其 思想 是 通过 随机 采样 来 计算 或 模拟 给 定 过 程 。 蒙 特 卡 洛 是 位 
于 摩纳哥 公国 的 一 个 非常 有 名 的 城市 ， 蒙 特 卡 洛 方 法 的 开发 者 之 一 是 Stanislaw 




































































Ulam。Stan 正 是 基于 这 一 核心 思想 一 一 尽管 很 多 问题 都 难以 求解 甚至 无 法 准确 


公式 表达 ， 但 我 们 可 以 通过 采样 或 者 模拟 来 有 效 地 研究 。 














据 传 ， 起 因 是 为 了 计 




















算 单 轮 游戏 中 的 概率 ， 解 决 该 问题 的 方法 之 一 是 组 合 分 析 法 ， 另 一 种 是 Stan 声 
称 的 ， 进 行 多 次 单 轮 游戏 ， 最 后 计算 其 中 有 多 少 次 是 我 们 感 兴趣 的 。 这 听 起 来 似 














乎 是 显而易见 的 ， 





























或 者 至 少 是 相当 合理 的 ， 比 如 ， 你 可 能 











已 经 用 重 采 样 的 方法 来 








解决 统计 问题 。 不 过 这 个 实验 是 早 在 70 年 前 进行 的 ， 当 时 ， 第 一 台 计 算 机 才刚 
开始 研发 。 该 方法 首次 应 用 于 一 个 核 物 理 问 题 。 如 今 ， 个 人 计算 机 都 已 经 足够 强 











大 ， 用 蒙特 卡 洛 方法 可 以 解决 许多 有 趣 的 问题 ， 






































学 、 工 程 、 工 业 以 及 艺术 等 各 个 方面 。 








在 使 用 蒙特 


FE 洛 方法 计算 数值 的 例子 中 ， 一 个 教科 




















因此 ， 该 方法 也 被 广泛 应 用 到 科 









































xz。 实际 使 用 中 有 
































可 以 通过 以 下 过 程 估 计 z: 











(1) 在 边 长 为 2R 的 正方 形 内 随机 撒 六 个 点 。 





上 非常 经 典 的 是 估计 








更 好 的 方法 来 计算 r， 不 过 这 个 例子 仍然 共有 教学 意义 。 我 们 
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(2) 在 正方 形 内 画 一 个 半径 为 尽 的 圆 ， 计 算 在 圆 内 的 点 的 个 数 。 
4 x insid: 

(3) 得 出 的 估计 值 一 一 。 

需要 注意 ， 如 果 一 个 点 满足 以 下 条 件 ， 我 们 认为 该 点 位 于 圆 内 


VC +y)ER 
正方 形 的 面积 是 (2R)， 圆 的 面积 是 xzR ， 因 此 二 者 的 面积 之 比 是 4/r， 而 圆 
和 正方 形 的 面积 分 别 正比 于 圆 内 的 点 的 个 数 和 总 的 点 数 N。 我 们 可 以 通过 几 行 简 
单 的 代码 来 模拟 该 蒙特 卡 洛 过 程 计算 7 值 ， 同 时 计算 出 估计 值 与 实际 值 之 间 的 相 
对 误差 : 


N= 10000 





x, y = np.random.uniform(-1, 1, size=(2, N)) 
inside = (x**2 + y**2) <= 1 

pi = inside.sum()*4/N 

error = abs((pi - np.pi)/pi)* 100 


outside = np.invert (inside) 


plt.plot (x[inside], ylinside], 'b.') 

plt.plot (x[outside], yloutside], 'r.') 

plt.plot (0, 0, label='$\hat \pi$ = {:4.3f}j\nerror = {:4.3f}%'. 
format (pi, error), alpha=0) 

plt.axis('square') 

plt.legend (frameon=True, framealpha=0.9, fontsize=16); 
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上 面 的 代码 中 ，outside 是 用 来 绘图 的 ， 在 计算 pr 的 过 程 中 没有 用 




















4xinside 






























































2. 马尔 科 夫 链 









































到 。 另 外 一 点 需要 澄清 的 是 ， 由 于 这 里 用 的 是 单位 圆 ， 因 此 在 判断 一 个 点 是 否 在 
圆 内 时 没有 计算 平方 根 。 


马尔 科 夫 链 是 一 个 数学 对 象 ， 包 含 一 系列 状态 以 及 状态 之 间 的 转移 概率 ， 如 














果 每 个 状态 转移 至 
尔 科 夫 链 。 有 这 相 























其 他 状态 的 概率 只 与 当前 状态 相关 ， 那 么 这 个 状态 链 就 称 为 马 


上 一 个 


人 马尔 科 夫 链 之 后 ， 我 们 可 以 任 取 一 个 初始 点 ， 然 后 根据 状 


态 转移 概率 进行 随机 游 走 。 假 设 能 够 找到 这 样 一 个 马尔 科 夫 链 ， 其 状态 转移 概率 

















正 

简 

样 的 状态 链 呢 ? 
2 











比 于 我 们 想 要 采样 的 分 布 ( 妇 
单 地 在 该 状态 链 上 移动 的 过 程 。 





























网 上 讲 ， 这 个 条 件 是 说 ， 我 们 需要 采 
中 的 一 个 常见 的 近似 )。 也 就 是 说 ， 从 ; 


























移 到 状态 i 的 概率 相等 。 
总 的 来 说 就 是 ， 如 果 我 们 能 够 找到 满足 细节 平衡 条 件 的 马尔 科 夫 链 ， 就 可 


以 保证 从 中 采样 





导 到 的 样本 来 自 正确 的 分 布 。 保 证 





Metropolis-Hasting 算法 。 


3.。 Metropolis-Hasting 算法 


为 了 更 形象 地 理解 这 个 算法 ， 我 们 
以 及 这 个 湖 中 最 深 的 点 ， 湖 水 很 浑 洒 


某 个 湖 的 水 容量 















































贝 叶 斯 分 析 中 的 后 验 分 布 )， 采 样 过 程 就 变 成 了 
那么 ， 如 何在 不 知道 后 验 分 布 的 情况 下 找到 这 
个 概念 叫做 细节 平衡 条 件 (Detailed Balance Condition ) ， 直 
] 一 种 可 道 的 方式 移动 可逆 过 程 是 物理 学 
大 态 i 转移 到 状态 的 概率 必须 和 状态 j 转 

















2g 中江 


六 











] 下面 这 个 例子 来 类 比 。 假 设 我 们 想 知道 
以 至 于 没 法 通过 肉眼 来 估计 











平衡 的 最 流行 的 算法 是 
































深度 ， 而 且 这 个 湖 相 当 大 ， 网 格 近似 法 显然 不 是 个 好 办 法 。 为 了 找到 一 个 采样 策 
































各 ， 我 们 请 来 了 两 个 好 朋友 小 马 和 小 戎 。 经 过 讨论 之 后 想 出 了 如 下 办 法 ， 我 们 需 
要 一 个 船 〈 当 然 ， 


也 可 以 是 竹 答 ) 和 一 个 很 长 的 棍子 ， 这 比 声呐 可 便宜 多 了 ， 而 


我 们 已 经 把 有 限 的 钱 都 花 在 了 船上 。 


(1) 随机 选 一 个 点 ， 然 后 将 船 开 过 去 。 


(2) 用 棍子 测 
(3) 将 船 移 到 另 一 个 地 点 并 重新 测量 。 








量 湖 的 深度 。 

















(4) 按 如 下 方式 比较 两 点 的 测量 结果 。 
日 的 地 点 水 位 深 ， 那 么 在 


国 如 果 新 的 地 点 比 | 
重复 过 程 (2) 。 








图 如 果 新 的 地 点 比 旧 的 地 点 水 位 浅 , 蛋 
接受 意味 着 记录 下 新 的 测量 值 并 习 
一 个 点 ， 再 次 记录 下 上 一 个 点 的 测量 值 。 

如 何 诀 定 接受 还 是 拒 双 

Hastings 准则 ， 即 接受 新 的 议 

按照 以 上 过 程 迭代 下 去 ， 我 们 不 仅 可 以 得 到 整个 湖 的 水 容量 和 最 深 的 点 ， 而 





























可 以 得 至 





可 以 得 到 整个 湖底 的 近似 


























记 本 上 记录 下 新 的 测量 值 





















































[EN 















































昌 率 。 你 也 许 已 经 猜 到 了 ， 在 这 个 类 比 中 ， 湖 底 的 曲 
率 其 实 就 是 后 验 的 分 布 ， 而 最 深 的 点 就 是 后 验 的 众 数 。 根 据 小 马 的 说 法 ， 迁 代 的 
次 数 越 多 ， 近 似 的 效果 越 好 。 











2.1 概率 编程 























了 么 我 们 有 两 个 选择 : 接受 或 者 拒绝 。 
E 复 过 程 (2)〉 ; 拒绝 意味 着 重新 回 到 上 


























里 的 一 个 技巧 便 是 使 用 Metropolis- 
新 旧 两 点 的 测量 值 之 比 。 












































事实 上 ， 理 论 保证 了 在 这 种 情形 下 ， 如 果 我 们 能 采样 无 数 次 ， 最 终 能 得 到 完 








整 的 后 验 。 和 幸运 地 是 ， 实 际 上 对 本 
| 一 个 相当 准确 的 近似 。 

现在 让 我 们 从 更 正式 的 角度 来 看 
布 )， 我 们 有 相当 高 效 的 算法 对 其 采样 ， 但 对 于 
Metropolis-Hastings 算法 使 得 我 们 能 够 从 任意 分 布 中 以 概率 p(x) 得 到 采样 值 ， 只 
要 我 们 能 算出 某 个 与 p(x) 成 比例 的 值 。 这 一 点 很 有 用 ， 
9 许多 问题 中 ， 最 难 的 部 分 是 


Metropolis-Hastings 算法 的 步骤 如 下 。 





























































































































很 多 问题 而 言 ， 我 们 只 需要 相对 较 少 地 采样 就 


于 很 多 分 布 而 言 ( 如 高 斯 分 
些 其 他 分 布 ， 情 况 就 变 了 。 














因为 在 类 似 贝 叶 斯 统计 














， 也 就 是 贝 叶 斯 定理 中 的 分 母 。 








(1) 给 参数 x 赋 一 个 初始 值 ， 通 常 是 随机 初始 化 或 者 使 用 某 些 经 验 值 。 
(2) 从 某 个 简单 的 分 布 8G641%) 中 选 一 个 新 的 值 x%,,， 如 高 斯 分 布 或 者 均 














匀 分 布 。 这 一 步 可 以 看 做 是 对 状态 x; 的 扰动 。 




















(3) 根据 Metropolis-Hastings 准则 计算 接受 一 个 新 的 参数 值 的 概率 : 


Pu CoH | 郊 ) = mn 


(4) 从 位 于 区 间 [0,1] 内 的 均匀 分 布 中 随机 选 一 个 值 ， 





























1 PX) | 





如 果 第 (3) 步 中 得 到 
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的 概率 值 比 该 值 大 ， 那 么 就 接受 新 的 值 ， 否 则 仍 保持 原来 的 值 。 
(5) 回 到 第 (2) 步 重新 和 迭代， 直到 我 们 有 足够 多 的 样本 ， 稍 后 会 解释 什么 






































叫 足 够 多 。 
有 几 点 需要 注意 。 


国 如 果 选 取 的 分 布 8Gim1%) 是 对 称 的 ， 












































那么 可 以 得 到 PC 1X)= 


nnn 2 | 这 通常 称 为 Metropolis 准则 。 


P(O5) 


国 步骤 (3) 和 步骤 (4) 表明 : 我 们 总 是 会 转移 到 一 个 比 当前 状态 (或 参数 ) 
概率 更 大 的 状态 (或 参数 ) ， 对 于 概率 更 小 的 ， 则 会 以 x 与 之 比 的 
概率 接受 ,该 准则 中 的 接受 步 又 使 得 采样 过 程 相 比 网 格 近 似 方 法 更 高 效 ， 














同时 保证 了 采样 的 准确 性 。 




















国 目标 分 布 ( 贝 叶 斯 统计 中 的 后 验 分 布 ) 是 通过 记录 下 来 的 采样 值 来 近似 的 。 
如 果 我 们 接受 转移 到 新 的 状态 x， 那么 我 们 就 记录 该 采样 值 x;,,。 如 果 














我 们 拒绝 转移 到 xj,,， 那 么 我 们 就 记录 zs 


























最 后 ， 我 们 会 得 到 一 连 串 记录 值 ， 有 时 候 也 称 采样 链 或 者 迹 。 如 果 一 切 都 正 
常 进行 ， 那 么 这 些 采 样 值 就 是 后 验 的 近似 。 在 采样 链 中 出 现 次 数 最 多 的 值 就 是 对 
应 后 验 中 最 可 能 的 值 。 该 过 程 的 一 个 优点 是 : 后 验 分 析 很 简单 ， 我 们 把 对 后 验 求 
积分 的 过 程 转化 成 了 对 采样 链 所 构成 的 向 量 求 和 的 过 程 。 


下 面 的 代码 展示 了 Metropolis 算法 的 一 个 基本 实现 。 这 段 代 码 并 不 是 为 了 解 
决 什 么 实际 问题 ， 只 是 在 这 里 用 来 演示 ， 如 果 我 们 知道 怎么 计算 给 定点 的 函数 

































































值 ， 我 们 就 可 能 得 到 该 函数 的 采样 。 需 要 注意 下 面 















































的 代码 中 不 包含 贝 叶 斯 相关 的 














部 分 ， 既 没有 先 验 也 没有 数据 。 要 知道 ， MCMC 是 一 类 能 够 用 于 解决 很 多 问题 
































的 通用 方法 。 例 如 ， 在 一 个 〈 非 贝 叶 斯 的 ) 分 子 模型 中 ， 我 们 可 能 需要 一 个 函数 
(x) 

















来 计算 在 某 个 状态 x 下 系统 的 能 量 而 不 是 简单 地 调 

















J func.pdf (x 




















metropolis 函数 的 第 一 个 参数 是 一 个 SciPy 的 分 布 ， 假 设 我 们 不 知道 如 何 


从 中 直接 采样 。 


def metropolis (func, steps=10000): 


"nA very simple Metropolis implementation™"™ 


samples = np.zeros (steps) 





2.1 概率 编程 


old x = func.mean() 
old prob = func.pdf (old x) 


for i in range (steps): 
new x = old x + np.random.normal (0, 0.5) 
new_prob = func.pdf (new x) 
acceptance = new prob/old prob 
if acceptance >= np.random.random(): 
samples[i] = new x 
old x = new x 
old prob = new prob 
else: 
samples[i] = old x 


return samples 


下 面 的 例子 中 ， 我 们 把 func 定义 成 一 个 beta 函数 ， 因 为 beta 函数 可 以 通 
过 改变 参数 调整 分 布 的 形状 。 我 们 把 metropolis 函数 的 结果 用 直方 图 画 出 来 ， 
同时 用 红色 的 线 表 示 真 实 的 分 布 。 





hale 





= stats.beta(0.4, 2) 


samples = metropolis (func=func) 


np-linspace (0.01; .99, 100) 
func.pdf (x) 


.Xlim(0, 1) 
“Blot (K;: Yr 


r-', lw=3, label='True distribution') 


.hist(samples, bins=30, normed=True, label='Estimated distribution') 
.Xlabel ('$x$', fontsize=14) 

.ylabel('$pdf (x) $', fontsize=14) 

.legend (fontsize=14) 


== True distribution 


10 I Estimated distribution 
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现在 你 应 该 从 概念 上 掌握 了 Metropolis-Hastings 算法 。 也 许 你 需要 回 过 头 
去 重新 阅读 前 面 几 页 才能 完全 消化 。 此 外 ， 我 还 强烈 建议 阅读 PyMC3 核心 作 
者 之 一 写 的 博文 http://twiecki.github.io/blog/2015/11/10/mecme-sampling/?。 他 用 一 
个 简单 的 例子 实现 了 metropolis 方法 ， 并 将 其 用 于 求解 后 验 分 布 ， 文 中 用 
非常 好 看 的 图 展示 了 采样 的 过 程 ， 同 时 简单 讨论 了 最 初 选取 的 步 长 是 如 何 影响 
结果 的 。 
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4. 汉密尔顿 蒙特 卡 洛 方法 / 不 掉 向 采样 


MCMC 方法 ， 包 括 Metropolis-Hastings， 都 在 理论 上 保证 如 果 采 样 次 数 足 够 
多 ， 最 终 会 得 到 后 验 分 布 的 准确 近似 。 不 过 ， 实 际 中 想 要 采样 足够 多 次 可 能 需要 
相当 长 的 时 间 ， 因 此 ， 人 们 提出 了 一 些 Metropolis-Hastings 算法 的 替代 方案 。 这 
些 蔡 代 方案 ， 包 括 Metropolis-Hastings 算法 本 身 ， 最 初 都 是 用 来 解决 统计 力学 中 
的 问题 。 统 计 力 学 是 物理 学 的 一 个 分 文 ， 主 要 研究 原子 和 分 子 系统 的 特性 。 汉 密 
尔 顿 蒙特 卡 洛 方法 ， 又 称 混合 蒙特 卡 洛 (Hybrid Monte Carlo，HMC) ， 是 这 类 改 
进 方案 之 一 。 简 单 来 说 ， 汉 密 尔 顿 这 个 词 描述 的 是 物理 系统 的 总 能 量 ， 而 另外 一 
个 名 称 中 的 “混合 ”是 指 将 Metropolis-Hastings “算法 与 分 子 力学 (分 子 系统 中 广 
泛 应 用 的 一 种 仿真 技巧 ) 相 结 合 。HMC 方法 本 质 上 和 Metropolis-Hastings 是 一 
样 的 ， 改 进 的 地 方 在 于 : 原来 是 随机 放置 小 船 ， 现 在 有 了 一 个 更 聪明 的 办 法 ， 将 
小 船 沿 着 湖底 方向 放置 。 为 什么 这 个 做 法 更 聪明 ?因为 这 样 做 避免 了 Metropolis- 
Hastings 算法 的 主要 问题 之 一 : 探索 得 太 慢 而 且 采 样 结果 自 相 关 《 因 为 大 多 数 采 
样 结果 都 被 拒绝 了 )。 


那么 ， 如 何 才 能 不 必 深 入 其 数学 细节 而 理解 汉密尔顿 蒙特 卡 洛 方法 呢 ? 假设 
我 们 还 是 在 湖面 上 坐 着 船 ， 为 了 决定 下 一 步 将 要 去 哪 ， 我 们 从 当前 位 置 往 湖底 扎 
了 一 个 球 ， 受 “球状 奶牛 ”的 启发 “， 我 们 假设 球面 是 理想 的 ， 没 有 摩擦 ， 因 而 
不 会 被 泥巴 和 水 减速 。 扔 下 球 之 后 ， 让 它 深 一 小 会 儿 ， 然 后 把 船 划 到 球 所 在 的 位 
置 。 现 在 利用 Metropolis-Hastings 算法 中 提 到 的 Metropolis 准则 来 选择 接受 或 者 
拒绝 ， 重 复 整 个 过 程 一 定 次 数 。 改 进 后 的 过 程 有 更 高 的 概率 接受 新 的 位 置 ， 即 使 



































































































































































































































GD 该 文章 notebook 形式 的 翻译 见 https://github.com/findmyway/Bayesian-Analysis-with-Python/ 


blob/master/MCMC-sampling-for-dummies.ipynb。 一 一 译 者 注 
@) “球状 奶牛 ”起 源 于 一 个 物理 学 家 的 笑话 ， 具 体 含义 可 自行 搜索 维基 百科 。 一 一 译 者 注 





















































它们 的 位 置 相 比 前 一 位 置 
现在 跳出 我 们 的 思维 实验 ， 回 





E 离 较 远 。 














函数 的 梯度 。 梯 度 是 在 多 
曲面 上 移动 的 过 程 。 因 





到 现实 中 来 。 基 于 汉 


2.1 概率 编程 





2 
第 小 


顿 的 方法 需要 计算 























个 维度 上 导数 的 推广 。 我 们 可 以 用 梯度 信息 来 模拟 球 在 
此 ， 我 们 面临 一 个 权衡 ; HMC 计算 过 程 要 比 Metropolis- 























Hastings 更 复杂 ， 但 是 被 接受 概率 更 高 。 对 于 一 些 复杂 的 问题 ， 
想 要 得 到 很 好 的 采样 需要 指定 一 些 参 


合适 一 





些 。HMC 


数 。 如 果 手 动 指定 ， 需 要 反复 尝试 ， 这 要 求 使 用 者 有 
PyMC3 中 有 一 个 相对 较 新 的 不 掉 向 采样 算 








= 
AE: 





方法 的 另 一 个 缺点 











方法 的 采样 效率 ， 


同时 不 必 手 动 调整 参数 。 


5.， 其 他 MCMC 方法 








HMC 方法 更 





< 
E23 








定 的 经 验 。 幸 运 地 是 ， 
法 ， 该 方法 被 证 实 可 以 有 效 提升 HMC 

















MCMC 的 方法 很 多 ， 而 且 人 们 还 在 不 断 提出 新 的 方法 。 如 果 你 认为 你 能 提 


升 采样 效率 ， 





会 有 很 多 人 对 你 的 想法 感 兴 
超出 了 本 书 的 范围 。 不 过 ， 有 些 方法 仍 











直 得 一 提 ， 因 











。 讨 论 所 有 这 类 方法 及 其 优 缺 点 显然 


为 你 可 能 经 常会 听 到 人 们 讨 











论 它 们 ， 所 以 最 好 是 了 解 下 他 们 都 在 讨论 些 什 么 。 


在 分 子 系统 模拟 中 广泛 应 























的 另外 一 种 采样 方法 是 副本 交换 (Replica Exchange)， 


也 称 并 行 退 火 (Parallel Tempering) 或 者 Metropolis Coupled MCMC (MC3; 好 


)。 该 方法 的 基本 思想 
Metropolis-Hastings 算法 执行 。 多 个 副本 之 间 的 唯 























三 
人 






































(又 受到 物理 








Hastings 准则 来 





























出 就 是 说 ， 
如 果 我 们 提高 
副本 可 以 更 自由 




















接受 或 拒绝 ， 


具有 相似 温度 


地 探索 系统 ， 


学 的 启发 ! )， 该 参数 用 来 控 


开行 模拟 多 个 不 同 的 


副本 ， 每 个 副本 都 按照 
不 同 是 一 个 叫做 温度 的 参数 
氏 概率 采样 点 的 可 能 性 。 每 隔 一 
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A 












































判 接受 











段 时 间 ， 该 方法 都 尝试 在 多 个 副本 之 间 进 行 切 换 ， 切 换 过 程 同时 遵循 Metropolis- 
只 不 过 现在 考虑 的 是 不 同 
程 可 以 在 状态 链 上 进行 随机 切换 ， 不 过 ， 通 常 更 倾向 于 在 相 邻 副本 之 间 切 换 ， 








副本 之 间 的 温度 。 切 换 过 

































































避免 了 较 低 温度 
点 的 系统 。 





的 副本 陷 在 局 部 最 低 点 ， 





的 副本 会 有 更 高 的 接受 概率 。 该 方法 的 直观 理解 
温度 ， 接 受 新 位 置 的 概率 也 会 提升 ， 反 之 则 会 降低 。 温 度 更 高 的 
因为 这 些 副 本 的 表面 会 变 得 相当 平坦 从 而 更 容 
易 探 索 。 对 于 温度 无 限 高 的 副本 ， 所 有 状态 都 是 





日 
和 E ; 


























等 概率 的 。 副 本 之 间 的 切换 
因而 该 方法 很 适合 探索 有 多 个 最 低 
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2.2 PyMC3 介绍 

PyMC3 是 一 个 用 于 概率 编程 的 Python 库 ， 当 前 最 新 的 版 本 号 是 2016 年 
10 月 4 号 发 布 的 3.0.rc2。PyMC3 提供 了 一 套 非常 简洁 直观 的 语法 ， 非 常 接近 
统计 学 中 描述 概率 模型 的 语法 ， 可 读 性 很 高 。PyMC3 是 用 Python 写 的 ， 其 
中 的 核心 计算 部 分 基于 NumPy 和 Theano 。Theano 是 一 个 用 于 深度 学 习 的 
Python 库 ， 可 以 高 效 地 定义 、 优 化 和 求解 多 维 数组 的 数学 表达 式 。PyMC3 使 
] Theano 的 主要 原因 是 某 些 采样 算法 (如 NUTS) 需要 计算 梯度 ， 而 Theano 
可 以 很 方便 地 进行 自动 求 导 。 而 且 ，Theano 将 Python 代码 转化 成 了 C 代码 ， 
因而 PyMC3 的 速度 相当 快 。 关 于 Theano 就 需要 了 解 这 些 ， 如 果 你 想 深 入 学 习 


更 多 可 以 阅读 Theano 官网 上 的 教程 http://deeplearning.net/software/theano/tutorial/ 


















































































































































index.html#tutorial 。 


2.2.1 用 计算 的 方法 解决 抛 硬币 问题 

让 我 们 重新 回顾 下 抛 硬 币 问 题 ， 这 次 我 们 使 用 PyMC3。 首 先 我 们 需要 获取 
数据 ， 这 里 我 们 使 用 手动 构造 的 数据 。 由 于 数据 是 我 们 自己 生成 ， 所 以 知道 真实 
的 参数 0， 以 下 代码 中 用 theta_real 变量 表示 ?显然 在 真实 数据 中 ， 我 们 
并 不 知道 参数 的 真实 值 ， 而 是 要 将 其 估计 出 来 。 























































































































np.random.seed (123) 

n_experiments = 4 

theta real = 0.35 

data = stats.bernoulli.rvs (p=theta real, size=n experiments) 
print (data) 

array (ll Vr 0 VM 


模型 描述 
现在 有 了 数据 ， 需 要 再 指定 模型 。 回 想 一 下 ， 模 型 可 以 通过 指定 似 然 和 先 验 
的 概率 分 布 完成 。 对 于 似 然 ， 我 们 可 以 用 参数 分 别 为 n=1 和 p=9 的 二 项 分 布 来 
描述 ， 对 于 先 验 ， 我 们 可 以 用 参数 为 a=B=1 的 beta 分 布 描述 。 这 个 beta 分 布 与 
[0,1] 区 间 内 的 均匀 分 布 是 一 样 的 。 我 们 可 以 用 数学 表达 式 描述 如 下 : 
0~ Beta(a,p) 
y~ Bin(n=1,p=0) 










































































2.2 PyMC3 介绍 





这 个 统计 模型 与 PyMC3 的 语法 几乎 一 一 对 应 。 第 1 行 代码 先 构建 了 一 个 模 
型 的 容器 ，PyMC3 使 用 with 语法 将 所 有 位 于 该 语法 块 内 的 代码 都 指向 同一 个 
模型 ， 你 可 以 把 它 看 作 是 简化 模型 描述 的 “语法 糖 ”， 这 里 将 模型 命名 为 our 
first model。 第 2 行 代码 指定 了 先 验 ， 可 以 看 到 ， 语 法 与 数学 表示 很 接近 。 我 
们 把 随机 变量 命名 为 6， 需 要 注意 的 是 ， 这 里 变量 名 与 Beta 函数 的 第 1 个 参数 名 
一 样 ， 保持 相 同 的 名 字 是 个 好 习惯 ， 这 样 能 避免 混 请 。 然 后 ， 我 们 通过 变量 名 从 
后 验 采 样 中 提取 信息 。 这 里 变量 9 是 一 个 随机 变量 ， 我 们 可 以 将 该 变量 看 做 是 
从 某 个 分 布 〈 在 这 里 是 beta 分 布 ) 中 生成 数值 的 方法 而 不 是 某 个 具体 的 值 。 第 3 
行 代码 用 跟 先 验 相同 的 语法 描述 了 似 然 ， 唯 一 不 同 的 是 我 们 用 observed 变量 传 
递 了 观测 到 的 数据 ， 这 样 就 告诉 了 PyMC3 我 们 的 似 然 。 其 中 ，qata 可 以 是 一 个 
Python 列表 或 者 Numpy 数组 或 者 Pandas 的 DataFrame。 这 样 我 们 就 完成 了 模型 的 































































































































































































with pm.Model() as our first model: 
theta = pm.Betal('theta', alpha=1l, beta=1) 
y = pm.Bernoulli('y', p=theta, observed=data) 


按 下 推断 按钮 

对 于 抛 硬币 这 个 问题 ， 后 验 分 布 既 可 以 从 分 析 的 角度 计算 出 来 ， 也 可 以 通过 
PyMC3 用 几 行 代码 从 后 验 的 采样 中 得 到 。 代 码 中 的 第 1 行 ， 调 用 了 fing MAP 函 
数 ， 该 函数 调用 SciPy 中 常用 的 优化 函数 尝试 返回 最 大 后 验 (Maximum a Posteriori， 
MAP)。 调 用 find MAP 是 可 选 的 ， 有 时 候 其 返回 值 能 够 为 采样 方法 提供 一 个 不 错 
的 初始 点 ， 不 过 有 时 候 却 并 没有 多 大 用 ， 因 此 大 多 数 时 候 会 避免 使 用 它 。 然 后 ， 
下 一 行 定义 了 采样 方法 。 这 里 用 的 是 Metropolis-Hastings 算法 ， 函 数 名 取 了 简 
写 Metropolis。PyMC3 可 以 让 我 们 将 不 同 的 采样 器 赋 给 不 同 的 随机 变量 ， 眼 下 
我 们 的 模型 只 有 一 个 参数 ， 不 过 后 面 我 们 会 有 多 个 参数 。 我 们 也 可 以 省 略 该 行 ， 
PyMC3 会 根据 不 同 参数 的 特性 自动 地 赋予 一 个 采样 器 ， 例 如 ，NUTS 算法 只 对 
连续 变量 有 用 ， 因 而 不 能 用 于 离散 的 变量 ，Metropolis 算法 能 够 处 理 离散 的 变量 ， 
而 另外 一 些 类 型 的 变量 有 专门 的 采样 方法 。 总 的 来 说 ， 我 们 可 以 让 PyMC3 为 我 
们 选 一 个 采样 方法 。 最 后 一 行 是 执行 推断 ， 其 中 第 1 个 参数 是 采样 次 数 ， 第 2 个 
和 第 3 个 参数 分 别 是 采样 方法 和 初始 点 ， 可 以 看 到 这 两 个 参数 是 可 选 的 。 


start = pm.find MAP () 
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step = pm.Metropolis () 
trace = pm.sample (1000, step=step, start=start) 


这 样 ， 只 需要 几 行 代码 我 们 就 完成 了 整个 模型 的 描述 和 推断 。 感 谢 PyMC3 
的 开发 者 们 为 我 们 提供 了 这 么 棒 的 库 。 



































诊断 采样 过 程 
现在 我 们 根据 有 限 数量 的 样本 对 后 验 做 出 了 近似 ， 接 下 来 要 做 的 第 一 件 事 
就 是 检查 我 们 的 近似 是 否 合理 。 我 们 可 以 做 一 些 测试 ， 有 些 是 可 视 化 的 ， 有 些 是 
定量 的 。 这 些 测 试 会 尝试 从 样本 中 发 现 问 题 ， 但 并 不 能 证 明 我 们 得 到 的 分 布 是 正 
确 的 ， 它 们 只 能 提供 证 据 证 明 样本 看 起 来 是 合理 的 。 如 果 我 们 通过 样本 发 现 了 问 
题 ， 解 决 办 法 有 如 下 几 种 。 
国 增加 样本 次 数 。 
国 从 样本 链 ( 迹 ) 的 前 面部 分 去 掉 一 定数 量 的 样本 ， 称 为 老化 (Bum-in) 。 
在 实践 中 ，MCMC 方法 通常 需要 经 过 一 段 时 间 的 采样 之 后 ， 才 得 到 真正 
的 目标 分 布 。 老 化 在 无 限 多 次 的 采样 中 并 不 是 必须 的 ， 因 为 这 部 分 并 没 
有 包含 在 马尔 科 夫 理论 中 。 事 实 上， 去 掉 前 面部 分 的 样本 只 不 过 是 在 有 
限 次 采样 中 提升 结果 的 一 个 小 技巧 。 需 要 注意 ,不 要 被 数学 对 象 和 数学 
对 象 的 近似 和 弄 糊 涂 了 ， 球 体 、 高 斯 分 布 以 及 马尔 科 夫 链 等 数学 对 象 只 存 
在 于 柏拉图 式 的 想象 世界 中 ， 并 不 存在 于 不 完美 但 却 真实 的 世界 中 。 
国 重新 参数 化 你 的 模型 ， 也 就 是 说 换 一 种 不 同 但 却 等 价 的 方式 描述 模型 。 
国 转换 数据 。 这 么 做 有 可 能 得 到 更 高 效 的 采样 。 转 换 数据 的 时 候 需要 注意 
对 结果 在 转换 后 的 空间 内 进行 解释 ， 或 者 再 重新 转换 回去 ， 然 后 再 解 和 
结果 。 


本 书 剩余 部 分 将 会 详细 讲解 这 些 方案 。 
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通常 ， 我 们 要 做 的 第 一 件 事 就 是 查看 结果 长 什么 样 ，traceplot 函数 非常 
玄 


burnin = 100 


chain = trace[burnin:] 





[ 42 1 


2.2 PyMC3 介绍 


pm.traceplot (chain, lines={'theta':theta real}); 

对 于 未 观测 到 的 变量 ,我们 得 到 了 两 幅 图 。 左 图 是 一 个 核 密度 估计 (Kernel 
Density Estimation，KDE) 图 ， 可 以 看 做 是 平滑 之 后 的 直方 图 。 右 图 描绘 的 是 每 
一 步 采 样 过 程 中 得 到 的 采样 值 。 注 意图 中 红色 的 线 表示 变量 theta_real 的 值 。 
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在 得 到 这 些 图 之 后 ， 我 们 需要 观察 什么 呢 ? 首先 ，KDE 图 看 起 来 应 该 是 光 
滑 的 曲线 。 通 常 ， 随 着 数据 的 增加 ， 根 据 中 心 极限 定理 ， 参 数 的 分 布 会 趋 近 于 
高 斯 分 布 。 当 然 ， 这 并 不 一 定 是 正确 的 。 右 侧 的 图 看 起 来 应 该 像 白 噪声 ， 也 就 是 
说 有 很 好 的 混合 度 (mixing) ， 我 们 看 不 到 任何 可 以 识别 的 模式 ， 也 看 不 到 向 上 
或 者 向 下 的 曲线 ， 相 反 ， 我 们 希望 看 到 曲线 在 某 个 值 附 近 震 荡 。 对 于 多 峰 分 布 或 
者 离散 分 布 ， 我 们 希望 曲线 不 要 在 某 个 值 或 区 域 停留 过 多 时 间 ， 我 们 希望 看 到 采 
样 值 在 多 个 区 间 自 由 移动 。 此 外 ， 我 们 希望 迹 表现 出 稳定 的 相似 性 ， 也 就 是 说 ， 
前 10% 看 起 来 跟 后 50% 或 者 10% 差不多 。 再 次 强调 ， 我 们 不 希望 看 到 规律 的 模 
式 ， 相 反 我 们 期 望 看 到 的 是 噪声 。 下 图 展示 了 一 些 迹 呈现 较 好 混合 度 〈 右 侧 ) 与 
较 差 混合 度 〈 左 侧 ) 的 对 比 。 
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QD 此 处 已 根据 原 书 的 勘误 更 正 。 译 者 注 
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如 果 迹 的 前 面部 分 跟 其 他 部 分 看 起 来 不 太一 样 ， 那 就 意味 着 需要 进行 老化 处 
理 ， 如 果 其 他 部 分 没有 呈现 稳定 的 相似 性 或 者 可 以 看 到 某 种 模式 ， 那 这 意味 着 需 
要 更 多 的 采样 ， 或 者 需要 更 换 采 样 方法 或 者 参数 化 方法 。 对 于 一 些 复杂 的 模型 ， 
我 们 可 能 需要 结合 使 用 前 面 所 有 的 策略 。 

PyMC3 可 以 实现 并 行 地 运行 一 个 模型 多 次 ， 因 而 对 同一 个 参数 可 以 得 到 
多 条 并 行 的 迹 。 这 可 以 通过 在 采样 函数 中 指定 njobs 参数 实现 。 此 时 使 用 
traceplot 函数 ， 便 可 在 同一 幅 图 中 得 到 同一 个 参数 的 所 有 迹 。 由 于 每 组 迹 都 
是 相互 独立 的 ， 所 有 的 迹 看 起 来 都 应 该 差不多 。 除 了 检查 收敛 性 之 外 ， 这 些 并 行 
的 迹 也 可 以 用 于 推断 ， 我 们 可 以 将 这 些 并 行 的 迹 组 合 起 来 提升 采样 大 小 而 不 是 扔 
掉 多 余 的 迹 : 


with our first model: 







































































step = pm.Metropolis () 
multi trace = pm.sample (1000, step=step, njobs=4) 


burnin = 0 
multi chain = multi trace[burnin:] 
pm.traceplot (multi chain, lines={'theta'gkthetayead 上 上) 
2 theta 
>»2.0 
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一 种 定量 地 检测 收敛 性 的 方法 是 Gelman-Rubin 检验 。 该 检验 的 思想 是 比较 
不 同 迹 之 间 的 差异 和 迹 内 部 的 差异 ， 因 此 ， 需 要 多 组 迹 来 进行 该 检验 。 理 想 状 态 
下 ， 我 们 希望 得 到 尺 =1。 根 据 经 验 ， 我 们 认为 如 果 得 到 的 值 低 于 1.1， 那 么 可 以 
认为 是 收敛 的 了 ， 更 高 的 值 则 意味 着 没有 收敛: 


















































pm.gelman rubin (multi chain) 
"theta's: 100745797S51170656; ‘theta Loegodds':s 1:009/70031607.315} 


我 们 还 可 以 用 forestplot 函数 将 让 和 每 个 参数 的 均值 、50%HPD 和 
95%HPD 可 视 化 地 表示 出 来 : 














pm.forestplot (multi chain, varnames=['theta']); 





theta 


函数 summary 提供 了 对 后 验 的 文字 


和 HPD 区 间 : 


95%Credible Intervals 

















pm.summary (multi chain) 


theta: 




















2:2 


R-hat 


95% HPD 


PyMC3 介绍 


述 ， 它 可 以 提供 后 验 的 均值 、 标 准 差 


interval 


0s339 


el 


此 外 ，df_summary 函数 


DataFrame : 


25 


pm.df_summary (multi chain) 


小 
语 
加 





类 似 的 结果 ， 不 过 类 型 是 


[0.037， 





0.659] 


Pandas 中 的 





mean 


sd 


mce_error 


hpd 2.5 


hpd 97.5 
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0.33883 





0.17305 








0.00592 





0.03681 


0.65916 

















其 中 ， 返 回 值 之 一 是 mc_error， 


的 是 所 有 的 采样 值 并 非 真 的 彼此 独立 。mc_error 是 迹 中 不 同 块 的 均值 的 标准 差 ， 


这 是 对 采样 引入 误差 的 估计 值 ， 该 值 考 月 
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每 一 块 是 迹 中 的 一 部 分 : 


MC 2 


error Vn 
该 误差 值 显然 低 于 我 们 结果 的 准确 度 。 由 于 采样 方法 是 随机 的 ， 每 次 重 跑 
的 时 候 ，summary 或 者 df_summary 返回 的 值 都 会 不 同 ， 不 过 没关系 ，mc_ 
error 的 值 应 该 是 相似 的 ， 如 果 返 回 的 值 有 很 大 不 同 ， 则 说 明 我 们 可 能 需要 更 
多 的 样本 。 
















































































自 相关 

最 理想 的 采样 应 该 不 会 是 自 相关 的 ， 也 就 是 说 ， 某 一 点 的 值 应 该 与 其 他 点 的 
值 是 相互 独立 的 。 在 实际 中 ， 从 MCMC 方法 (特别 是 Metropolis-Hastings) 中 得 
到 的 采样 值 是 自 相 关 的 。 由 于 参数 之 间 的 相互 依赖 关系 ， 可 能 模型 会 导致 更 多 的 
自 相 关 采 样 。PyMC3 有 一 个 很 方便 的 函数 用 来 描述 自 相 关 。 


pm.autocorrplot (chain) 
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correlation 
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该 图 显示 了 采样 值 与 相 邻 连续 点 最 多 100 个 ) 之 间 的 平均 相关 性 。 理 想 状 

态 下 ， 我 们 不 会 看 到 自 相 关 性 ， 实 际 中 我 们 希望 看 到 自 相 关 性 降低 到 较 低 水 平 。 

参数 越 自 相关 ， 要 达到 指定 精度 的 采样 次 数 就 需要 越 多 ， 也 就 是 说 ， 自 相关 性 不 
利于 降低 采样 次 数 。 



















































































有 效 采 样 大 小 

一 个 有 自 相 关 性 的 采样 要 比 没有 自 相 关 性 的 采样 所 包含 的 信息 量 更 少 ， 因 
此 ， 给 定 采样 大 小 和 采样 的 自 相 关 性 之 后 ， 我 们 可 以 尝试 估计 出 该 采样 的 大 小 为 
多 少时 ， 该 采样 没有 自 相关 性 而 且 包 含 的 信息 量 不 变 ， 该 值 称 为 有 效 采 样 大 小 。 
理想 情况 下 ， 两 个 值 是 一 模 一 样 的 ， 二 者 越 接 近 ， 我 们 的 采样 效率 越 高 。 有 效 采 
样 大 小 可 以 作为 我 们 的 一 个 参考 ， 如 果 我 们 想 要 估计 出 一 个 分 布 的 均值 ， 我 们 需 
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要 的 最 小 采样 数 至 少 为 100; 如 果 想 要 估计 出 依赖 于 尾部 分 布 的 量 ， 比 如 可 信 区 
间 的 边界 ， 那 么 我 们 可 能 需要 1000 到 10000 次 采样 。 





pm.effective n(multi chain) ['theta'] 
67 


显然 ， 提 高 采样 效率 的 一 个 方法 是 换 一 个 更 好 的 采样 方法 ， 另 一 个 办 法 是 
转换 数据 或 者 对 模型 重新 设计 参数 ， 此 外 ， 还 有 一 个 常用 的 办 法 是 对 采样 链 压 
缩 。 所 谓 压缩 其 实 就 是 每 隔 磊 个 观测 值 取 一 个 ， 在 Python 中 我 们 称 为 切片 。 压 
缩 会 降低 自 相 关 性 ， 但 代价 是 同时 降低 了 样本 量 。 因 此 ， 实 际 使 用 中 通常 更 倾 
向 于 增加 样本 量 而 不 是 切片 。 不 过 有 时 候 ， 压 缩 会 很 用， 比如 降低 存储 空 
间 。 如 果 仍 不 能 避免 高 自 相 关 性 ， 我 们 就 只 能 算出 更 长 的 采样 链 ， 模 型 中 的 参 
数 很 多 的 话 ， 存 储量 会 是 个 问题 。 而 且 ， 我 们 可 能 还 会 对 后 验 做 一 些 计算 量 很 
大 的 后 处 理 ， 此 时 在 自 相关 性 尽 可 能 小 的 前 提 下 ， 采 样 数量 的 大 小 就 显得 尤为 
重要 。 

目前 为 止 ， 所 有 的 诊断 测试 都 是 经 验 性 而 非 绝对 的 。 实 际 使 用 中 ， 我 们 会 先 
运行 一 些 测 试 ， 如 果 看 起 来 没什么 问题 ， 我 们 就 继续 往 下 分 析 。 如 果 发 现 了 一 些 
问题 ， 就 需要 回 过 头 解决 它们 ， 这 也 是 建 模 过 程 的 一 部 分 。 要 知道 ， 进 行 收敛 性 
检查 并 非 贝 叶 斯 理论 的 一 部 分 ， 由 于 我 们 是 用 数值 的 方式 在 计算 后 验 ， 因 而 这 只 
是 贝 叶 斯 实践 过 程 中 的 一 部 分 。 


































































































































































































2.3 总 结 后 验 

我 们 已 经 知道 ， 贝 叶 斯 分 析 的 结果 是 后 验 分 布 ， 其 包含 了 在 已 有 数据 和 模 
型 下 ， 参 数 的 所 有 信息 。 我 们 可 以 使 用 PyMC3 中 的 plot posterior 函数 对 
后 验 分 布 进 行 可 视 化 总 结 ， 这 个 函数 的 核心 参数 是 一 个 PyMC3 的 迹 和 或 者 一 
个 NumPy 的 数组 ， 默 认 情 况 下 ， 该 函数 会 画 出 参数 的 直方 图 以 及 分 布 的 均值 ， 
此 外 图 像 的 底 端 还 有 一 个 黑色 的 粗 线 用 来 表示 95%HPD 区 间 。 可 以 通过 设置 
alpha_level 参数 来 改变 HPD 区间。 我们 将 这 类 图 称 为 Kruschke 图 ， 这 是 因 
为 John K. Kruschke 第 一 次 在 他 的 《Doing Bayesian Data Analysis》 一 书 中 引入 了 
这 种 图 。 








































































































pm.plot posterior (chain, kde plot=True) 
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2.3.1 基于 后 验 的 决策 

















有 时 候 ， 仅 仅 描 述 后 验 还 不 够 ， 我 们 还 需要 根据 推断 结 











果 做 决策 ， 即 将 连 











续 的 估计 值 收敛 到 一 个 二 值 化 结果 上 是 或 不 是 、 受 污染 


回 到 





稍 和 
这 是 
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决策 。 


此 裁 
度 ， 


抛 硬 











因此 决策 也 是 1 


问题 上 ， 我 们 需要 
的 值 为 0.5， 严 格 来 说 ， 出 现 这 种 情况 的 概率 是 0， 
肖 放 松 ， 假 如 一 枚 硬 中 
有 “左右 ”的 具体 含义 依赖 于 
|。 





还 是 安全 的 等 等 。 











回答 硬币 是 不 是 公平 的 。 





榴 


公平 的 硬币 是 指 9 
我 们 会 对 定义 





























的 9 值 在 0.5 左右 ， 我 们 
\ 体 的 问题 ， 并 没有 





















































个 满 














i 主 观 的 ， 我 们 的 任务 就 是 根据 我 们 的 











直观 




















定 一 个 硬币 是 公平 的 。 或 并 





上 ， 一 个 明智 的 做 法 是 将 HPD 
们 的 例子 中 ， 该 值 是 0.5。 前 面 的 
含 0.5 这 个 值 ， 不 过 根据 后 




















图 中 可 以 看 出 HPD 的 范 






































因而 ， 实 际 
就 认为 这 枚 硬币 


区 间 与 我 们 感 兴 趣 的 值 进行 比较 ， 在 
围 是 0.06 一 0.71， 包 
验 分 布 来 看 ， 硬 币 似乎 倾向 于 反面 朝 上 ， 我 们 无 法 部 
F， 我 们 需要 收集 更 多 的 数据 来 降低 数据 的 分 散 程 




















从 而 得 到 











个 更 而 








我 们 没 能 找到 更 完备 的 先 验 。 


ROPE 





























FE 等 价 


加 ROPE 与 HPD 
图 ROPE 包含 整 人 
图 ROPE 与 HPD 


今 束 个 














结果 至 少 有 以 下 3 种 情况 。 


区 间 ， 例 如 我 们 可 以 说 [0.45,0.55] 
区 间 。 同 样 ，ROPE 是 根据 实际 情况 决定 的 。 接 下 来 我 们 





是 公平 的 。 


普 适 








足 所 有 问题 的 
目标 做 出 最 可 能 的 

















我 

















上 定 的 决策 ， 又 或 者 是 因为 我 们 漏 掉 了 某 些 关键 信息 ， 以 至 


基于 后 验 做 决策 的 一 种 方案 是 实用 等 价 区 间 (Region Of Practical Equivalence， 
ROPE)， 其 实 就 是 在 感 兴 趣 值 附 近 的 一 个 
0.5 的 一 个 实用 人 必 
可 以 将 ROPE 与 HPD 对比 ， 





sl 
候 








HPD 区 间 ， 我 们 可 以 认为 硬 








区 间 没 有 重 登 ， 因 此 我 们 可 以 说 硬币 是 不 公 
是 公平 的 。 


区 间 部 分 重合 ， 此 时 我 们 不 能 判断 硬币 是 否 公平 。 





F 的 。 











当然 ， 如 果 选 择 区 间 [0,1] 作为 ROPE， 那 么 不 管 结果 怎样 我 们 都 会 说 这 枚 
硬币 是 公平 的 ， 不 过 恐怕 没 人 会 同意 我 们 对 ROPE 的 定义 。plot posterior 
函数 可 以 用 来 画 ROPE。 从 图 中 可 以 看 到 ，ROPE 是 一 段 较 宽 的 半 透 明 的 红色 线 
段 ， 同 时 上 面 有 两 个 数值 表示 ROPE 的 两 个 端点 。 















































pm.plot posterior (chain, kde plot=True, rope=[0.45, 0.55]) 


theta 


.35 












95%HPD 
045 0.55 





0.064 0. 
00 0. 1 02 03 04 05 0.6 07 08 09 


我 们 还 可 以 给 plot posterior 传递 一 个 参考 值 ， 例 如 0.5， 用 来 和 后 验 
进行 对 比 。 从 图 中 可 以 看 出 我 们 会 得 到 一 个 绿色 的 垂直 线 以 及 大 于 该 值 和 小 于 该 
值 的 后 验 比 例 。 


pm.plot posterior (chain, kde plot=True, ref val=0.5) 


















































theta 
mean=0.35 









77.7%<0.5<22 3% 
95% HPD 


00 01 02 03 04 05 06 07 08 09 
关于 如 何 使 用 ROPE 的 更 多 细节 ， 你 可 以 阅读 John Kruschke 写 的 《Doing 
Bayesian Data Analysis》 一 书 的 第 12 章 。 这 一 章 还 讨论 了 在 贝 叶 斯 框架 下 如 何 做 
假设 检验 ， 以 及 一 些 〈 贝 叶 斯 或 者 非 贝 叶 斯 的 ) 假设 检验 方面 的 警告 


























损失 函数 

如 果 你 觉得 ROPE 准则 有 些 杂 乱 ， 想 要 更 正式 一 些 的 形式 ， 那 么 损失 函数 就 
是 你 想 要 的 。 做 好 决策 很 重要 的 一 点 是 ， 参 数 的 估计 值 要 有 很 高 的 精度 ， 同 时 还 
要 考虑 到 预测 出 错 的 代价 。 对 于 收益 /损失 的 权衡 可 以 从 数学 形式 上 用 代价 函数 
来 描述 ， 有 时 候 也 称 为 损失 函数 。 损 失 函 数 刻 画 的 是 当 了 (硬币 是 不 公平 的 ) 成 
立时 预测 了 (硬币 是 公平 的 ) 成 立时 的 代价 。 在 许多 问题 中 ， 决 策 的 代价 函数 是 
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不 对 称 的， 例如 ， 在 决定 5 岁 以 下 的 儿童 是 否 应 该 接种 某 种 疫苗 这 件 事 上 ， 决 定 
接种 或 者 不 接种 可 能 造成 完全 不 同 的 影响 ， 一 旦 做 出 错误 的 决策 ， 可 能 会 导致 上 
干 人 死亡 ， 而 假如 能 决定 接种 某 种 非常 安全 同时 又 相对 便宜 的 疫苗 ， 则 可 能 避免 
一 场 健 康 危机 。 人 们 对 如 何在 有 限 信息 下 做 出 决策 的 问题 已 经 研究 许多 年 了 ， 该 
学 科 被 称 为 决策 理论 。 
2.4 总 结 

本 章 ， 我 们 学 习 了 概率 编程 ， 同 时 体会 到 了 推断 引擎 的 强大 力量 。 我 们 从 概 
念 上 讨论 了 MCMC 方法 的 核心 思想 及 其 在 现代 贝 叶 斯 数据 分 析 中 的 地 位 。 此 外 ， 





我 们 第 一 次 见证 了 PyMC3 的 强大 和 易 用 性 。 


























币 问 题 ， 这 次 ， 我 们 使 











] PyMC3 重新 定 














过 程 中 非常 重要 的 模型 检查 和 模型 诊断 


下 一 章 会 
模型 ， 












































口 








我 们 还 重 


新 








义 并 解决 了 这 

















( 注 : 


顾 了 


个 问题 ， 








继续 学 习 贝 叶 斯 分 析 的 一 些 技 巧 y 我 们 将 学 习 如 何 处 到 
以 及 如 何 协调 多 个 参数 之 间 的 层次 关系 。 


前 一 章 中 的 抛 硬 
同时 还 做 了 建 模 














多 个 参数 的 


一 定 要 记得 查看 例子 部 分 : https://pymc-devs.github.io/ 


忆 已 出版) ， 这 本 








该 


目前 已 经 转 成 PyMC3 了 : https://github.com/ 








， Thomas 


2.5 深入 阅读 
国 PyMC3 的 文档 ， 
pymc3/。 
国 《 贝 叶 斯 方法 一 一 概率 编程 与 贝 叶 斯 推断 》 
书 最 初 是 用 PyMC2 写 的 ， 
quantoplian/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers 。 
国 《While My MCMC Gently Samples》，PyMC3 核心 开发 者 之 一 
Wiecki 的 博客 。 
国 《Statistical Rethinking》，Richard McElreath 写 的 一 本 关于 贝 叫 





斯 分 析 的 入 


门 书 。 书 中 的 例子 是 用 R/Stan 写 的 ， 我 将 这 本 书 中 的 例子 转 成 了 Python/ 
PyMC3， 相 关 代 码 可 以 查看 https://github.com/aloctavodia/Statistical-Rethinking- 
with-Python-and-PyMC3。 














2.6 练习 








国 《Doing Bayesian Data Analysis》，John K. Kruschke 写 的 另 一 本 关于 贝 叶 
斯 分 析 的 入 门 书 ， 也 有 跟前 面 一 本 书 类 似 的 问题 ， 该 书 第 1 版 中 的 大 部 
分 例子 也 都 转 成 了 Python/PyMC3， 相 关 代 码 可 以 查看 https://github.com/ 





aloctavodia/Doing _ bayesian data analysis。 


2.6 练习 


























OO 


(1) 用 其 他 先 验 尝试 网 格 算法 。 例 如 ， 演 试 将 代码 改 成 prior = (griqd <= 
0.5) .astype (int) 或 者 prior = abs (grid - 0.5)， 或 者 你 可 以 将 其 定 
义 成 你 所 想 的 任意 形式 。 换 一 些 其 他 数据 重复 实验 ， 例 如 增加 总 的 样本 数 或 者 将 

















样本 数 根据 你 看 到 的 正面 朝 上 的 次 数 适 











当 调 整 。 








(2) 在 我 们 估计 bp 值 的 代码 中 ， 将 入 固定， 重复 多 次 实验 。 注 意 由 于 我 们 


























之 
差 的 标准 差 ， 然 后 使 用 matplotlib 中 的 





使 用 了 随机 数 ， 每 次 的 结果 都 会 不 一 样 ， 不 过 检查 一 下 可 以 发 现 误差 应 该 差 不 
多 。 尝 试 把 NN 调 大 然后 再 重 跑 ， 你 能 猜 出 NN 与 误差 之 间 的 关系 吗 ? 你 可 能 需要 
修改 下 代码 ， 将 入 作为 一 个 参数 传 给 训 





| 算 误差 的 函数 ， 这 样 方便 估计 六 与 误差 


> 间 的 关系 。 对 于 相同 的 入 值 ， 可 以 重复 跑 多 次 后 计算 误差 的 平均 值 和 这 些 误 















































errobar () 函数 将 它们 画 出 来 。 可 以 尝 








试 一 些 类 似 100、1000、10000 的 数 作为 Y 的 值 〈 每 次 提高 一 个 数量 级 )。 


(3) 修改 传 给 metropolis 函数 的 参数 。 尝 试 使 用 第 1 章 中 用 到 的 先 验 。 
将 这 段 代 码 与 网 格 计算 进行 比较 ， 看 一 下 哪 部 分 需要 修改 后 才能 用 于 解决 贝 叶 








斯 推 类 问题 。 







































































(4) 将 前 一 题 的 答案 与 下 面 链接 中 Thomas Wiechi 的 代码 进行 比较 : http:// 
twiecki.github.io/blog/2015/11/10/mcmce-sampling/。 


(5) 修改 beta 先 验 分 布 的 参数 以 





匹配 前 1 章 中 的 分 布 ， 试 比较 2 者 的 结 














果 。 将 beta 分 布 蔡 换 成 区 间 为 [0,1] 的 均匀 分 布 ， 其 结果 是 否 与 beta(a=1,b=1) 相 
等 ? 采样 速度 相 比 是 更 快 ? 还 是 更 慢 ? 或 者 是 相等 ? 如 果 换 成 更 大 的 区 间 ， 比 如 







































































[-1,2] 呢 ? 模型 是 否 能 正常 运行 ? 你 得 到 的 错误 是 什么 意思 ? 如 果 你 不 调用 fing_ 
MAP () 函数 的 话 呢 ? “记得 将 sample 函数 的 第 1 个 参数 也 去 掉 ， 如 果 你 是 在 























(GD 第 2 版 也 有 人 转 成 了 Python，https://github.com/JWarmenhoven/DBDA-python。 一 一 译 者 注 
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Jupyter/IPython 记事 本 中 运行 代码 ， 尤 其 需要 注意 这 点 。) 





(6) 修改 退化 的 数量 。 尝 试 将 退化 的 数量 修改 为 0 或 者 500， 还 可 以 尝试 不 
j find_MAP () 函数 ， 结 果 的 差别 有 多 大 ? 提示 : 这 里 采样 的 模型 非常 简单 ， 记 
住 这 个 练习 ， 后 面 在 其 他 章节 中 我 们 还 会 在 更 复杂 的 模型 上 进行 尝试 。 

(7) 使 用 自己 的 数据 。 用 你 自己 感 兴趣 的 数据 重新 跑 一 边 本 章 的 内 容 ， 这 个 
练习 适用 于 本 书 剩 余 的 所 有 章节 。 

















































































































(8) 阅读 PyMC3 文档 中 的 煤矿 灾变 模型 : http:/pymc-devs.github.io/pymc3/ 
notebooks/getting started.html#Case-study-2:-Coal-mining-disasters， 试 着 自己 实现 
并 运行 该 模型 。 














除了 每 章 最 后 的 练习 之 外 ， 你 还 可 以 将 已 经 学 到 的 内 容 应 用 到 你 感 兴趣 的 
问题 上 。 也 许 ， 你 需要 重新 定义 你 的 问题 ， 或 者 需要 扩展 或 者 修改 你 已 经 学 到 的 
模型 。 试 着 修改 模型 ， 如 果 你 觉得 这 个 任务 已 经 超出 了 你 实际 掌握 的 部 分 ， 那 么 
先 将 问题 记 下 来 ， 等 读 完 本 书 其 余 章 节 后 再 回 过 头 来 重新 思考 这 些 问 题 。 如 果 最 
后 本 书 仍然 无 法 解决 你 的 问题 ， 那 么 你 可 以 查看 下 PyMC3 的 例子 (http://pyme- 
devs.github.io/pymc3/examples.html)， 或 者 在 PyMC3 的 论坛 (https://discourse. 
pymc.io) 上 提问 。 
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前 面 两 章 中 ， 我 们 学 习 了 贝 叶 斯 方法 的 核心 思想 以 及 如 何 用 PyMC3 进行 贝 
叶 斯 推断 。 如 果 我 们 想 要 构建 任意 复杂 的 模型 (肯定 会 的 )， 就 必须 学 会 构建 多 
参 模型 。 几 乎 所 有 我 们 可 能 感 兴趣 去 建 模 的 问题 都 需要 不 止 一 个 参数 ， 而 且 ， 在 
许多 真实 世界 的 问题 中 ， 某 些 参数 可 能 会 依赖 于 其 他 参数 ， 这 类 关系 可 以 通过 
分 层 贝 叶 斯 模型 优雅 地 建 模 。 这 些 概 念 都 非常 重要 ， 本 书 剩 余部 分 将 会 反复 进 
行 回顾 。 

本 章 ， 我 们 会 讨论 以 下 主题 : 
宛 余 参数 和 边缘 概率 分 布 ; 
高 斯 模型 ; 
存在 异常 值 时 的 鲁 棒 估计 ; 
比较 不 同 的 组 以 及 效应 值 ; 
分 层 模 型 和 收缩 (shrinkage) 。 




























































































3.1 ”元 余 参 数 和 边缘 概率 分 布 

尽管 大 多 数 有 意思 的 模型 都 是 多 参 的 ， 但 事实 上 ， 并 非 构建 模型 的 所 有 参数 
都 是 我 们 直接 感 兴趣 的 。 有 时 候 ， 增 加 一 个 参数 只 是 出 于 构建 模型 的 完整 性 ，j 
非 因为 我 们 真 的 关心 这 个 参数 。 有 时 候 我 们 需要 估计 出 一 个 高 斯 分 布 的 均值 来 回 
答 某 个 重要 问题 ， 对 于 这 样 一 个 模型 ， 除 非 我 们 知道 该 分 布 的 标准 差 ， 否 则 在 预 
测 该 分 布 均值 的 同时 还 需要 将 标准 差 预测 出 来 ， 尽 管 我 们 对 标准 差 并 不 感 兴趣 。 
我 们 把 构建 模型 中 并 不 感 兴趣 但 却 必 须 有 的 参数 称 为 元 余 参数 。 在 贝 叶 斯 框架 
下 ， 所 有 未 知 量 都 是 同等 对 待 的 ， 因 而 一 个 参数 是 否 是 抑 余 参数 与 实际 的 问题 相 
关 ， 而 不 是 与 参数 本 身 、 模 型 或 者 是 推断 过 程 相关 。 
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此 刻 你 可 能 在 想 ， 构 建 模型 的 过 程 中 居然 需要 用 到 并 不 感 兴趣 的 参数 ， 这 
简直 就 是 个 负担 。 人 恰恰 相 反 ， 模 型 中 包含 这 些 不 感 兴趣 的 参数 之 后 ， 我 们 可 以 
利用 这 类 参数 包含 的 不 确定 性 自动 传播 到 最 后 目标 参数 估计 的 结果 中 。 在 许多 问 
题 中 ， 我 们 需要 将 一 些 测量 值 转化 成 感 兴趣 的 量 ; 例如 在 磁 共 振 成 像 (Magnetic 
Resonance Imaging，MRI) 中 ， 我 们 将 被 特定 原子 核 ( 主 要 是 氧 原 子 ) 发 散 和 吸 
收 的 无 线 电 频率 转化 成 一 个 人 内 部 的 影像 。 这 类 转换 通常 需要 用 到 元 余 参数 ， 大 
多 数 情况 下 ， 人 们 会 将 其 设 为 某 些 预先 校准 的 值 ， 或 者 是 某 些 经 验 值 ， 又 或 许 是 
根据 某 个 勉强 适用 的 经 验 性 准则 得 到 的 值 ， 不 过 贝 叶 斯 统计 可 以 估计 出 这 些 元 余 
参数 〈 及 其 不 确定 性 )。 

对 于 两 个 参数 的 模型 ， 我 们 可 以 把 贝 叶 斯 模型 写成 如 下 形式 : 

P(g,217)ccp19,2)p(0,02) 

只 需要 继续 增加 9， 我 们 就 可 以 把 上 式 扩展 到 超过 两 个 参数 的 情况 。 我 们 假 
设 9, 和 09, 是 标量 (数字 ) 而 不 是 向 量 。 上 面 的 式 手 与 前 面 章 节 中 看 到 的 式 子 的 
一 个 不 同 点 是 : 现在 我 们 得 到 的 是 一 个 用 9y 和 .0; 两 个 参数 的 联合 分 布 表示 的 二 
维 后 验 分 布 。 我 们 假设 9, 是 我 们 问题 中 的 一 个 元 余人 参数 ; 我 们 如 何 只 用 90, 来 表 
示 后 验 呢 ? 只 需要 计算 后 验 分 布 对 9, 的 边缘 分 布 即 可 : 


















































































































































































































































p(0,»)=|p(0,0 1»)d0, 

也 就 是 说 ， 我 们 将 后 验 对 9, 求 积分 ， 从 而 将 后 验 表示 成 只 包含 0, 的 项 ， 
同时 隐 式 地 考虑 了 9, 的 不 确定 性 。 对 离散 变量 而 言 ， 积 分 就 变 成 了 求 和 。 下 
图 中 ， 中 央 的 点 表示 9, 和 9, 的 联合 分 布 ， 上 侧 和 右 侧 分 别 表示 9, 和 0, 的 边 
缘分 布 。 

因此 ， 每 当 我 们 听 到 参数 x 的 边缘 分 布 时 ， 我 们 就 要 联想 到 x 在 其 他 参数 取 
遍 所 有 可 能 分 布 后 得 到 的 平均 分 布 。 

边缘 化 不 仅仅 是 从 多 峰 分 布 中 得 到 较 低 维度 的 一 个 切片 的 方法 ， 而 且 还 有 利 
于 简化 数学 分 析 和 计算 分 析 。 有 有 时候， 我 们 可 以 在 计算 后 验 之 前 先 对 元 余 参 数 从 
里 论 上 边缘 化 ， 在 第 7 章 中 会 见 到 相关 的 例子 。 

通过 仿真 得 到 后 验 ( 例 如 用 PyMC3) 的 一 个 好 处 是 ， 我 们 会 对 模型 中 的 每 
个 参数 得 到 一 个 单独 的 向 量 ， 也 就 是 说 ， 参 数 已 经 边缘 化 了 。 
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3.2 ”随处 可 见 的 高 斯 分 布 

前 面 我 们 用 beta- 二 项 分 布 模型 介绍 了 贝 叶 斯 的 思想 ， 该 模型 很 简单 。 另 外 
一 个 非常 简单 的 模型 是 高 斯 分 布 或 者 叫 正 态 分 布 。 从 数学 的 角度 来 看 ， 高 斯 分 
布 非常 受 欢迎 的 原因 是 它 处 理 起 来 非常 简单 ， 例 如 ， 高 斯 分 布 的 平均 值 的 共 园 
验 还 是 高 其 分布。 此外， 许多 现象 都 可 以 用 高 斯 分 布 来 近似 ， 本 质 上 来 说 ， 每 当 
我 们 测量 某 种 均值 时 ， 只 要 采样 的 样本 量 足 够 大 ， 观 测 值 的 分 布 就 会 呈现 高 斯 分 
布 。 至 于 这 种 近似 什么 时 候 是 对 的 ， 什 么 时 候 是 错 的 ， 可 以 了 解 下 中 心 极限 定理 
(Central Limit Theorem，CLT) ， 去 搜索 下 这 个 统计 学 的 核心 概念 。 这 里 举 一 个 例 
子 ， 身 高 〈 以 及 其 他 描述 人 的 特征 ) 是 受到 基因 和 许多 环境 因素 影响 的 ， 因 而 我 
们 观测 到 的 成 年 人 的 身高 符合 高 斯 分 布 。 不 过 事实 上 ， 我 们 得 到 的 其 实 是 一 个 双 
峰 分 布 ， 男 人 和 女人 的 身高 分 布 重 登 在 了 一 起 。 总 的 来 说 ， 高 斯 分 布 用 起 来 很 简 
单 ， 而 且 自 然 界 中 随处 可 见 ， 这 也 是 为 什么 你 了 解 或 者 听 说 过 的 许多 统计 方法 都 
基于 高 斯 分 布 。 学 习 如 何 构建 这 类 模型 非常 重要 ， 此 外 ， 学 会 如 何 放宽 正 态 分 布 
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的 假设 也 同等 重要 ， 这 一 点 在 贝 叶 斯 框架 中 利用 PyMC3 之 类 的 现代 计算 工具 很 
容易 处 理 。 





3.2.1 高 斯 推断 

下 面 的 例子 与 核磁 共振 中 的 实验 有 关 ， 核 磁 共 振 是 一 种 研究 分 子 和 生物 
《毕竟 生物 也 是 由 分 子 构成 的 ) 的 技术 。 下 面 这 组 数据 ， 可 能 来 自 一 群 人 喘 
高 的 测量 值 、 回 家 的 平均 时 间 、 从 超市 买 回来 橙子 的 重量 、 大 壁虎 的 伴侣 个 
数 或 者 任何 可 以 用 高 斯 分 布 近似 的 测量 值 。 在 这 个 例子 中 ， 我 们 有 48 个 测 
量 值 : 


data = np.array( [S106, S92 33,73) S024 35320 53640; 485 S234; 
S05 Sd9,. D1. Bey "O94d37 D300 DE-09 Dlg93,., 32.31; S233 Dd D444 
Slds S393 "Sd 62 "S09 Ol de Dlede, Sodly HO Sl.94r D4eQ IO0.39, 
Sas D1 DA MVE A9 3 Sadeay S499, S24 Soel9 S452 T1466 
Std Sab doe; Sosd2s Ddrdr Dad S36)) 


下 图 显示 了 上 面 的 数据 集 ， 看 起 来 有 点 像 高 斯 分 布 ， 除 了 有 两 个 点 偏离 了 
均值 。 
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暂且 先 不 考虑 偏离 均值 的 那 两 个 点 ， 假 设 以 上 分 布 就 是 高 斯 分 布 。 由 于 我 
们 不 知道 均值 和 方差 ， 需要 先 对 这 两 个 变量 设置 先 验 。 然 后 ， 顺 理 成 章 地 得 到 
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如 下 模型 : 
KH ~ Uniform (1,4) 
o ~ HalfNormal (o, ) 
y~ Normal (4,0 ) 

其 中 , 来自 上 下 界 分 别 为 1 和 的 均匀 分 布 ，o 来 自 标 准 差 为 au 的 半 正 态 
分 布 。 半 正 态 分 布 和 普通 正 态 分 布 很 像 ， 不 过 只 包含 正 数 ， 看 起 来 就 好 像 将 普通 
的 正 态 分 布 沿 着 均值 对 折 了 。 最 后 ， 在 我 们 的 模型 中 ， 数 据 y 来 自 参 数 分 别 为 
和 o 的 正 态 分 布 ， 我 们 可 以 用 Kruschke 风格 的 图 将 其 画 出 来 : 


1 J 
| uniform half~normal 


h 
和 
normal 
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如 果 不 知道 j 和 o 的 值 ， 可 以 通过 先 验 来 表示 该 未 知 信息 。 例 如 ， 可 以 将 
均匀 分 布 的 上 下 界 分 别 设 为 (1=40, h=75)， 这 个 范围 要 比 数据 本 身 的 范围 稍 大 
一 些 。 或 者 ， 可 以 根据 我 们 的 先 验 知识 设 得 更 广 一 些 ， 比 如 我 们 知道 这 类 观测 值 
不 可 能 小 于 0 或 者 大 于 100， 因 而 可 以 将 均匀 先 验 的 参数 设 为 (1=0,h=100)。 对 
于 半 正 态 分 布 而 言 ， 我 们 可 以 把 cc 的 值 设 为 10， 该 值 相对 于 数据 的 分 布 而 言 算 
是 较 大 的 。 利 用 PyMC3， 我 们 可 以 将 模型 表示 如 下 : 































































































with pm.Model() as model 9: 
mu = pm.Uniform('mu', 40, 75) 
sigma = pm.HalfNormal ('sigma', sd=10) 
y = pm.Normal ('y', mu=mu, sd=sigma, observed=data) 


trace g = pm.sample(1100) 


traceplot 看 起 来 很 正常 ， 我 们 可 以 接着 继续 分 析 ， 当 然 你 也 可 以 抱 着 怀 
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疑 的 心态 跑 一 遍 前 面 第 2 章 提 到 的 诊断 测试 。 可 以 看 到 traceplot 返回 的 图 有 
两 行 ， 每 行 表示 一 个 参数 。 这 些 都 是 边缘 分 布 ， 要 记 住 后 验 是 二 维 的 。 








chain g = trace g[100:] 
pm.traceplot (chain g) 


Frequency 
Un 二 一 IDbwFwC~1oo 
; | 
大 

Sample value 
me mh] 


51.5 520 525 530 53.5 540 545 550 55.5 0 200 400 600 800 1000 


Frequency 
cocoocooo—— 
PS ee 

Sample value 
DD 上 PA 
WOOmou 


‘25 3.0 33 40 4.5 5.0 5.5 0 200 400 600 800 1000 














这 里 将 参数 的 总 结 打印 出 来 ， 后 面 会 用 到 。 











pm.dqf_ summary (chain g) 





mean | sd mce errot hpd-.2.5 327hpd 97.5 





mu $3:51 | .0353 | 0:02 52.5 54.54 





sigma | 3.55 0.38 | 0.01 2.86 4.32 


























现在 我 们 得 到 了 后 验 ， 可 以 将 其 用 于 模拟 数据 ， 然 后 就 可 以 检查 模拟 数据 
与 观测 数据 是 否 一 致 了 。 在 第 1 章 中 ， 我 们 将 这 种 检查 称 作 后 验 预测 检查 ， 
为 我 们 先 通过 后 验 做 出 预测 ， 然 后 用 这 些 预测 来 检查 模型 。 利 用 PyMC3 中 的 
sample_ppc() 函数 可 以 很 容易 地 从 后 验 中 得 到 预测 值 。 下 面 的 代码 中 我 们 从 
后 验 中 生成 了 100 组 预测 值 ， 每 组 预测 值 的 大 小 与 观测 数据 的 维度 一 致 。 注 意 我 
们 需要 将 迹 和 模型 传 给 sample_ppc () ， 其 他 参数 是 可 选 的 。 











四 















































y_pred = pm.sample ppc (chain g, 100, model g, size=len (data)) 
sns.kdeplot (data, c='b"') 
for 1 Lm Ypresd[l "Ys 
sns.kdeplot (i, c='r', alpha=0.1) 
BltE -LIm(3o7 73) 
plt.title('Gaussian model', fontsize=16) 
plt.xlabel ('$x$', fontsize=16) 
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Gaussian model 











上 图 中 ， 蓝 色 的 线 是 观测 数据 的 KDE， 半 透明 的 红色 的 线 是 100 组 从 后 验 
中 采样 出 来 的 预测 值 的 KDE。 可 以 看 出 ， 采 样 值 的 均值 要 稍稍 偏 右 一 些 ， 而 且 
采样 值 的 变化 相 比 原始 的 观测 值 也 更 大 一 些 。 接 下 来 的 内 容 中 ， 我 们 会 逐步 优化 
模型 ， 最 终 得 到 一 个 与 观测 数据 更 吻合 的 后 验 分 布 。 
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3.2.2 ” 鲁 棒 推断 


对 于 前 面 的 模型 ， 你 可 能 有 点 疑惑 ， 我 们 假设 数据 的 分 布 是 高 斯 分 布 ， 但 是 
在 数据 的 末端 却 有 两 个 数据 点 ， 这 看 起 来 不 太 像 高 斯 分 布 。 高 斯 分 布 的 两 端 随 着 
距离 均值 越 远 ， 值 会 迅速 下 降 。 对 于 我 们 这 里 的 数据 而 言 ， 模 型 中 的 高 斯 分 布 看 
到 右 端的 那 两 个 点 时 会 感到 很 惊讶 ， 于 是 会 同 右 侧 靠 近 ， 从 而 使 得 其 标准 差 也 上 
升 了 。 可 以 看 出 ， 这 两 个 点 对 于 高 斯 分 布 的 参数 有 着 举足轻重 的 作用 。 那 么 可 以 
采取 什么 措施 改进 呢 ? 一 个 做 法 是 将 这 两 个 点 看 做 是 异常 点 并 将 其 从 观测 值 中 吻 
除 ， 因 为 这 两 个 值 有 可 能 是 因为 仪器 异常 或 者 人 为 琉 忽 导致 的 。 有 时 候 我 们 也 许 
能 够 直接 矫正 这 些 点 ， 因 为 有 可 能 只 是 我 们 处 理 数 据 时 的 代码 出 了 些 问 题 ， 但 更 
多 时 候 ， 我 们 希望 能 够 根据 某 种 异常 值 的 处 理 规则 自动 消除 这 些 异常 点 ， 其 中 的 
两 个 规则 如 下 : 


国 所 有 超出 1.5 倍 4 分 位 范围 的 数据 都 是 异常 值 ; 
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国 所 有 


七 





t 分 布 
除了 利用 以 上 规则 改变 原始 数据 之 外 ， 我 们 还 可 以 修改 模型 。 


叶 斯 的 ) 


因 





尾部 要 比 高 斯 分 布 更 重 ， 
部 更 重 的 意思 是 : 相 
说 ， 该 分 布 3 
点 都 分 布 在 -12.7 ~ 12.7， 而 对 了 
-1.96 一 1.96。 此 外 ， 当 了 












































为 该 参数 决定 了 





























思想 ， 我 们 更 倾向 于 通过 使 
而 不 是 直接 使 用 一 些 先 验 准 则 (例如 前 面 
一 个 用 来 解决 异常 值 的 非常 有 
布 有 3 个 参数 : 均值 、 尺 度 ( 与 标准 差 类 似 ) 和 
值 范围 为 [0 六 )。 根 据 Kruschke 

































































出 观测 数据 两 倍 标准 差 的 都 是 异常 值 。 


通常 ， 按 照 贝 





] 不 同 的 先 验 或 者 似 然 将 假设 编码 到 模型 
这 些 吻 除 异 常 值 的 准则 )。 


的 方法 是 : 将 高 斯 分 布 蔡 换 成 t+ 分 布 。t 分 














自由 度 〈 通 党 




















有 ， 


1 vy 衣 不 ， 取 
的 命名 方式 ， 我 们 将 v 称 为 正 态 参数 ， 这 


sl 
候 





t 分 布 与 正 态 分 布 的 相似 程度 。 对 于 v=1 的 情况 ，t 分 布 的 
































比 高 














F 太 参 


LT 2 


斯 分 布 ， 我 们 更 有 可 





数 ， 

















在 不 同 的 领域 也 称 柯 西 分 布 或 者 洛 伦 兹 分布， 这 里 
能 观测 到 偏离 均值 的 点 ， 换 句 话 
不 像 高 斯 分 布 那 样 聚集 在 均值 附近 。 举 例 来 说 ， 柯 西 分 布 95% 的 
六 《标准 差 为 1 的 >》 高 斯 分 布 ， 对 应 的 区 间 为 
趋 近 于 无 穷 大 时 ,我 们 就 会 得 到 高 斯 分 布 




















尾 


(你 不 可 能 比 正 态 分 布 还 正 态 对 吧 ? )。t 分 布 于 作 有 意思 的 特性 是 : 当 v 科 1 


时 ， 该 分 布 没有 准 古 
因而 总 是 可 
的 均值 。 直 观 上 可 以 这 么 到 
能 是 实 轴 上 的 个 


些 数字 ， 















































外 定义 的 均值 。 
以 算出 经 验 怕 
E 解 : t 分 布 的 
F 意 一 点 ， 所 以 只 要 不 停 地 采 检 


























当然 ， 实 际 中 从 二 








的 均值 来 ， 不 过 到 











民 部 很 























人 确定 



































分 布 得 到 的 采样 不 过 是 一 
E 论 上 还 没有 一 个 ? 
EE， 因而 我 们 得 到 的 采样 值 很 可 
f ， 我 们 永远 也 无 法 得 到 一 个 固 


义 


x 


契 


值 。 你 可 以 尝试 多 次 运行 下 面 的 代码 (或 者 将 参数 df 换 成 一 个 更 大 的 值 ， 比 
如 100): 


np.mean (stats.t (loc=0, 


只 有 当 v>2 时 ， 分 布 的 方差 才 有 明确 定义 ， 


类 似 地 ， 











的 尺度 与 标准 差 不 是 同 





x values = np.linspace(-10, 
2, 


far df Lm Ll 


Dv 


个 概念 。 对 了 


301: 


distri = stats.t (df) 


Wy 











200) 


x pdf = distri.pdf (x values) 


scale=1, df=1) .rvs (100)) 








因此 ， 需 要 注 




















分 


J 


0 


Fv 志 2 的 分 布 ， 方 差 并 没有 明确 定义 ， 
而 也 没有 明确 定义 的 标准 差 。 当 v 趋向 于 无 穷 大 时 ， 尺 度 趋 近 于 标准 差 。 


男 起 








3.2 随处 可 见 的 高 斯 分 布 
plt.plot (x values, x_pdf, label=r'$\nu$ = {}'.format (df)) 


x _ pdf = stats.norm.pdf (x_values) 
plt.plot (x values, x_pdf, label=r'$\nu = \infty$') 





plt.xlabel('x') 
plt.ylabel ('p(x)', rotation=0) 
plt.legend (loc=0, fontsize=14) 
plt.xlim(-7, 7) 








利用 t 分 布 将 模型 表示 成 如 下 形式 : 


HL ~ Uniform (1,4) 
oO~ HalfNormal(o, ) 
v~ Exponential (4) 
y~ Student ( 1,0,v) 














上 上面 这 个 模型 与 前 面 的 高 斯 模型 的 主要 区 别 是 : 现在 似 然 是 t 分 布 ， 由 于 
分 布 多 了 一 个 新 的 参数 ， 我 们 需要 为 其 增加 一 个 先 验 。 这 里 用 了 一 个 均值 为 30 
的 指数 分 布 。 上 图 可 以 看 出 ，t 分 布 看 起 来 很 像 高 斯 分 布 〈“ 尽 管 其 实 并 不 一 样 )。 
7 值 较 小 的 分 布 更 分 散 ， 因 而 ， 均 值 为 30 的 指数 分 布 是 一 个 很 弱 的 先 验 ， 认 为 

态 参数 "在 30 附近 ， 不 过 也 可 以 很 容易 地 将 其 调 大 或 调 小 。 从 图 像 上 看 ， 我 
们 的 模型 表示 如 下 : 
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Or A 


L, 用 
| uniform | half-norma exponential 
nu 


Vv 






t distrib. 
同样 ，PyMC3 让 我 们 只 需要 几 行 代码 便 可 修改 模型 。 唯 一 需要 注意 的 是 ， 
PyMC3 中 指数 分 布 的 参数 用 的 是 分 布 均值 的 倒数 。 


with pm.Model() as model 七 : 
mu = pm.Uniform('mu', 40, 75) 
sigma = pm.HalfNormal ('sigma', sd=10) 
nu = pm.Exponential('nu', 1/30) 
y = pm.StudentT('y', mu=mu sd=sigma,wnu=nwWw. observed=data) 
trace t = pm.sample(1100) 
chain t = trace t[100:] 
pm.trace plot (chain 七 ) 


mu mu 
12 55.0 ‘™& 
四 1.0 345 
全 54.0 
§ 06 53s 
各 04 53.0 
应 ~ § 52.5 
02 加 52.0 
0.0 51.5 
51.5 520 525 530 53.5 540 545 55.0 0 200 400 600 800 1000 
Si sigma 
1.0 40 i 
0.8 9 3.5 
加 06 号 3.0 
四 vo 2.5 
多 0.4 互 
记 目 2.0 
0.2 中 1.5 
0.0 1.0 
1.0 1.5 2.0 2.3 3.0 3.5 4.0 0 200 400 600 800 1000 
nu nu 
5 0 3 30 
5 0.15 [EE 25 
三 vw 20 
2 0.10 BE 15 
0.05 10 
只 5 
0.00 0 
0 5 10 15 20 25 30 35 40 0 200 400 600 800 1000 








pm.df_summary (chain 七 ) 


3.2 ”随处 可 见 的 高 斯 分 布 





























mean | sd mce_error hpd 97.5 
mu 52.99 | 0.38 | 0.01 53.81 
sigma | 2.15 0.39 | 0.02 2.97 
nu 4.13 2.78 | 0.19 8.54 











可 以 看 到 ， 两 个 模型 对 4 的 估计 比较 接近 ， 只 相差 0.5 左右 ， 而 o 的 估计 则 从 3.5 





变 成 了 2.1， 这 正 是 因为 t 分 布 对 于 1 
以 看 到 ，A 的 值 接 近 4， 也 就 是 说 ， 该 分 布 3 
接 下 来 我 们 对 分 布 模型 做 后 验 检查 ， 并 将 其 




















y_pred = pm.sample ppc (chain 七 ， 
sns.kdeplot (data, c='b"') 


for i Ln ypredly ll]: 


sns.kdeplot (i, c='r', alpha=0.1) 
Blt xL1im(S3 5) 
Blt.title("Student's 七 model™; 
plt.xlabel ('$x$', 


0.30 


0.25 








可 以 看 到 ， 使 月 








测 数据 更 吻合 了 《留意 预测 值 远离 观测 值 中 心 的 部 分 )。 这 是 因 
到 在 偏离 数据 中 心 的 两 个 方向 上 都 
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Student 's t model 
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有 t 分 布 之 后 ， 从 分 布 的 峰值 和 形状 来 看 ， 模 型 的 预测 值 与 观 
为 t 分 布 希望 看 








9 数据。 在 我 们 的 模型 中 ，t 分 布 的 估计 人 


























ji 离 均值 的 点 所 赋予 的 权重 较 小 所 致 。 此 外 还 可 
不 太 像 高 其 分布， 而 是 更 接近 
与 高 斯 分 布 对 比 : 


100, model t, size=len (data)) 


E 尾 分 布 。 





办 
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鲁 棒 ， 因 为 异常 点 降低 了 正 态 参数 v 的 值 ， 从 而 均值 和 尺度 更 多 地 是 从 观测 数据 





























的 中 心 估计 出 来 的 ， 而 不 是 像 前 面 高 斯 分 布 的 例子 中 那样 ， 均 值 和 标准 差 都 偏向 
了 异常 值 。 再 强调 一 次 ， 这 里 的 尺度 并 不 是 标准 差 。 不 过 ， 尺 度 这 个 参数 确实 与 
数据 的 分 散 程度 有 关 ， 尺 度 越 小 ， 数 据 分 布 得 越 集 中 。 此 外 ， 对 应 正 态 参数 v 大 















































于 2 的 情况 ， 尺 度 的 值 倾向 于 接近 去 掉 异 常 值 之 后 的 标 








准 差 。 因此， 粗略 地 讲 ， 














对 于 不 是 特别 小 的 v 值 ， 我 们 可 以 将 t 分 布 的 尺度 大 致 看 做 是 去 掉 异 常 值 之 后 的 























数据 的 标准 差 ( 理 论 上 这 么 说 可 能 不 太 对 )。 





3.3 组 间 比 较 
统计 分 析 中 一 个 常见 的 任务 是 对 不 同 的 组 进行 比较 ， 



































例如 我 们 可 能 想 知道 病 














人 对 某 种 药 的 反应 如 何 、 引 入 菜 种 交通 法 规 后 车 祺 数量 是 否 会 降低 、 学 生 对 不 同 








教学 方式 的 表现 如 何等 。 有 时 候 ， 这 类 问题 统一 归 到 了 1 








段 设 检验 的 框架 下 ， 其 目 











的 是 得 到 统计 学 意义 上 的 显著 性 。 仅 仅 依赖 于 统计 显著 














性 可 能 会 带 来 很 多 问题 : 





一 方面 ， 统 计 显著 性 并 非 实 际 显著 性 ， 另 一 方面 ? 即使 是 很 小 的 作用 ， 只 要 收集 
尽 可 能 多 的 数据 ， 都 会 被 看 做 具有 显著 性 。 而 是 ,统计 显著 性 的 核心 思想 往往 需 
要 计算 p 值 。 已 经 有 很 多 文章 和 研究 记录 表明 ， 通 常 ，p/ 值 会 被 错误 地 使 用 和 人 解 








































































































释 ， 即 使 那些 每 天 跟 统计 打交道 的 科学 家 也 会 犯错 > 不 过 在 贝 叶 斯 框架 下 ， 我 们 
不 需要 计算 忆 值 ， 所 以 这 里 暂且 将 其 放 一 边 。 毕 竟 ， 在 实践 中 我 们 最 想 知道 的 是 





















































效应 值 ， 也 就 是 量化 估计 出 某 种 现象 的 强 弱 。 











在 比较 不 同 组 的 数据 时 ， 人 们 往往 会 将 其 分 为 一 个 实验 组 和 一 个 对 照 组 〈 也 





可 能 超过 一 个 实验 组 和 对 照 组 )， 例 如 当 我 们 测试 一 个 新 药 时 ， 由 于 安奈 剂 效应 
或 者 某 些 其 他 原因 ， 我 们 希望 将 使 用 新 药 的 组 《实验 组 ) 和 不 使 用 新 药 的 组 〈 对 




































































照 组 ) 进行 对 比 。 在 这 个 例子 中 ， 我 们 想 知道 对 于 治疗 某 种 疾病 ， 使 用 药物 对 比 



























































不 用 药物 (或 者 是 使 用 安慰 剂 )》 的 作用 有 多 大 。 另 一 个 





























9 趣 的 问题 是 ， 与 治疗 某 





种 疾病 最 常用 的 (已经 被 审批 的 ) 药 相 比 ， 我 们 的 药 效果 如 何 ? 此 时 ， 对 照 组 
不 再 是 使 用 安奈 剂 的 组 ， 而 是 使 用 其 他 药物 的 组 。 从 统计 学 上 讲 ， 使 用 假 的 对 照 
组 是 一 种 不 错 的 撒谎 方式 ， 例 如 ,假设 休 家 邪恶 的 乳 制品 公司 想 要 卖 某 种 糖 过 量 
的 酸奶 给 小 朋友 ， 同 时 告诉 他 们 的 家 长 乳酸 有 利于 免疫 系统 。 一 种 支撑 该 说 法 的 
















































































做 法 是 : 使 用 牛奶 或 者 水 作为 对 照 组 ， 而 不 是 用 更 便宜 、 


























糖 更 少 、 市 场 更 小 的 酸 





3.3 组 间 比 较 











奶 。 这 么 做 听 起 来 很 租 ， 不 过 下 次 再 听 到 有 人 说 某 种 东西 更 坚固 、 更 好 、 更 快 、 
更 强 时 ， 记 得 问 一 下 他 对 比 的 基准 线 是 什么 。 





























3.3.1 “小 费 ” 数 据 集 

接 下 来 ， 我 们 将 使 用 seaborn 中 的 tips 数据 集 来 讨论 前 面 提 到 的 那些 思 
想 。 我 们 希望 知道 星期 几 对 于 餐馆 小 费 数量 的 影响 。 这 个 例子 中 ， 实 际 上 并 没有 
明确 的 实验 组 和 对 照 组 之 分 ， 这 只 是 观察 性 的 实验 ， 并 非 像 前 面 药物 测试 的 例 
子 一 样 。 如 果 愿 意 的 话 ， 我 们 可 以 任 选 一 天 《例如 星期 四 ) 作为 实验 组 ， 或 者 对 
照 组 ， 尽 管 我 们 并 没有 控制 某 个 具体 的 东西 。 需 要 注意 的 一 点 是 : 对 于 观察 性 实 
验 ， 我 们 没 法 得 出 某 种 因果 关系 ， 能 得 到 的 只 是 相关 性 。 事 实 上 ， 如 何 从 数据 
中 得 出 因果 关系 是 一 个 非常 热门 的 研究 问题 ， 我 们 会 在 第 4 章 重 新 讨论 这 个 问 
题 。 现 在 ， 我 们 首先 用 一 行 代码 将 数据 导入 成 Pandas 中 的 数据 结构 ， 如 果 你 对 
Pandas 不 大 熟悉 ， 这 里 需要 说 明 下 ，tail 函数 返回 数据 中 的 最 后 一 部 分 (当然 
你 也 可 以 用 head 函数 返回 前 面 一 部 分 数据 )。 









































































































































































































































tips = sns.load dataset ('tips') 




















tips.tail() 
total_ bill | tip SEX Smoker | day time size 
239 |.29;:03 5.92 | Male No Sat Dinner |3 
240 | 27.18 2.00 | Female | Yes Sat Dinner | 2 
241 | 22.07 2.00 | Male Yes Sat Dinner | 2 
242 | 17.82 1.75 | Male No Sat Dinner | 2 
243 | 18.78 3.00 | Female | No Thur | Dinner | 2 



























































对 于 这 个 数据 集 ， 我 们 只 关心 其 中 的 day 和 tip 列 ， 利 用 seaborn 中 的 
violinplot 函数 可 以 将 其 画 出 来 : 














sns.violinplot (x='day', y='tip', data=tips) 
把 问题 简化 下 ， 我 们 创建 两 个 变量 : 变量 y 表示 tips ; 变量 idx 表示 分 类 变 
量 的 编码 。 也 就 是 说 ， 我 们 用 数字 0、1、2、3 表示 星期 四 、 星 期 五 、 星 期 六 和 星期 天 。 




































































y = tips['tip'] .values 
idx = pd.Categorical (tips['day']) .codes 
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Thur Fri Sat Sun 
day 


这 个 问题 中 的 模型 与 之 前 的 模型 几乎 一 样 ， 唯 一 的 区 别 是 4 和 c 现在 是 一 


0 


-2 





组 随机 向 量 而 不 再 是 一 个 标量 。 换 句 话 说 ， 每 次 从 先 验 中 采样 的 时 候 ， 我 们 会 得 
到 4 个 4 和 4 个 a。PyMC3 的 语法 能 够 很 好 地 适应 这 个 场景 ， 我 们 可 以 直接 用 
向 量 的 方式 表示 模型 ， 而 不 用 使 用 for 循环 ”代码 的 变化 相 比 前 面 的 模型 很 小 。 
对 应 先 验 ， 我 们 需要 传 一 个 维度 变量 shape, “对 于 似 然 ， 我 们 需要 对 4 和 o 正 
确 地 进行 编码 ， 这 也 是 为 什么 创建 了 idx 变量 。 




















with pm.Model() as comparing groups: 
means = pm.Normal ('means', mu=0, sd=10, shape=len (set (x))) 
sds = pm.HalfNormal('sds', sd=10, shape=len (set (x))) 


y = pm.Normal ('y', mu=means[idx], sd=sds[idx], observed=y) 


trace cg = pm.sample(5000) 
chain cg = trace cg[100::] 
pm.traceplot (chain cg) 


means means 





1.5 2.0 2.5 3.0 3.5 4.0 “0 1000 2000 3000 4000 5000 





1.0 1.5 2.0 0 1000 2000 3000 4000 5000 





3.3 组 问 比较 








这 里 照常 使 用 df_summary 函数 来 描述 估计 点 ， 同 样 你 还 可 以 进行 诊 
断 测试 。 切 记 贝 叶 斯 分 析 返 回 的 是 《在 给 定数 据 和 模型 条 件 下 ) 参数 的 完整 
分 布 ， 因 而 我 们 可 以 对 后 验 进行 进一步 处 理 ， 并 从 中 提出 一 些 合理 的 问题 。 
比如 ， 我 们 可 能 想 知 道 组 与 组 之 间 均 值 差别 的 分 布 情况 ， 下 面 ， 我 们 就 来 分 
析 看 看 。 


这 里 我 们 使 用 PyMC3 中 的 plot posterior 函数 画 出 后 验 分 布 ， 其 中 选 
取 参 考 值 (ref_val) 为 0， 因 为 我 们 希望 将 后 验 与 0 进行 比较 。 下 面 的 代码 将 
两 个 变量 的 差 画 了 出 来 ， 没 有 进行 重复 比较 。 注 意 这 里 并 没有 一 对 一 的 对 比 矩 
车 ， 只 是 画 出 了 上 三 角 部 分 。 代 码 和 图 中 最 陌生 的 部 分 是 Cohen s d 和 概率 优势 ， 
后 面 会 详细 解释 ， 其 实 它们 都 是 对 效应 值 的 不 同 表示 方式 而 已 。 
































































































































































































































dist = dist = stats.norm() 
_ ax = plt.subplots(3, 2, figsize=(16, 12)) 





comparisons = [(i,j) for i in range(4) for j in range (i+1, 4)] 
Bos = [(krl) for kk in range(3) for 1 in (0 1)] 
EGE (1 TJ)r kl) 0 Zip(teomarisons, BOS): 
means diff = chain cg['means'][:,i]-chain cg['means'][:,j] 
d cohen = (means diff / np.sqrt((chain cg['sds'] [:,i]**2 + chain cg['sds'] 


[:,j]**2) / 2)) .mean() 
ps = dist.cdf(d cohen/ (2**0 .5) ) 


pm.plot posterior (means diff, ref val=0, ax=ax[k, 1], color='skyblue') 

ax[k, 1] .plot(0, label="Cohen's d = {:.2f}\nProb sup = {:.2f}".format(d_ 
cohen, ps) ,alpha=0) 

ax[k, 1].set xlabel('$\mu {}-\mu {}$'.format (i, j), fontsize=18) 

ax[k,l1 ] .legend(loc=0, fontsize=14) 


前 面 的 例子 中 ， 一 种 解释 结果 的 方式 是 将 参考 值 与 HPD 区 间 进 行 比较 。 只 
有 一 种 情况 下 95%HPD 没有 包含 0〈 我 们 的 参考 值 )， 即 星期 四 与 星期 天 的 对 
比 。 对 于 所 有 其 他 情况 ， 我 们 没 法 得 出 两 者 的 区 别 为 0 的 结论 (根据 HPD 区 
间 与 参考 值 的 重 登 性 准则 )。 但 是 即便 如 此 ， 平 均 下 来 0.5 美元 的 小 费 差别 是 否 
足够 大 了 呢 ? 这 个 差别 是 否 大 到 让 人 们 牺牲 星期 日 陪 家 人 或 者 朋友 的 时 间 去 工 
作 呢 ? 是 否 大 到 就 应 该 这 4 天 都 给 相同 的 小 费 而 且 男 服务 员 和 女 服务 员 的 小 费 
一 模 一 样 呢 ? 诸如 此 类 的 问题 很 难 用 统计 学 来 回答 ， 只 能 从 统计 学 中 找到 些 启 
发 。 描述 效应 值 的 方式 有 好 几 种 ， 我 们 接 下 来 将 学 习 其 中 的 两 个 : Cohen”s d 和 
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概率 优势 。 















Cohen's d=0.03 meén=0\22 


Cohen's d=-0.15 
Prob sup=0.51 Prob 


sup=0.46 
83.4%0<0<16.6% 


95% HPD 
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Prob sup=0.38 Prob sup=0.45 
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3.3.2 Cohen’sd 
Cohen” s d 是 一 种 用 来 描述 效应 值 的 常见 方式 : 
MH 


a 
2 


也 就 是 说 ， 效 应 值 是 在 考虑 不 同 组 的 标准 差 的 情况 下 ， 均 值 的 差异 。 在 前 面 
的 代码 中 ， 我 们 根据 估计 值 的 均值 和 标准 差 算 出 了 Cohen”s d 的 值 ， 因 而 我 们 可 
以 添加 对 Cohen”s d 的 描述 而 不 仅仅 是 均值 。 
比较 各 组 数据 的 时 候 ， 很 重要 的 一 点 是 要 考虑 组 内 的 波动 性 (比如 标准 差 )。 
一 组 数据 相 比 男 一 组 数据 变化 了 x 个 单位 ， 可 能 是 每 个 点 都 整体 变化 了 x 个 单位 ， 
也 可 能 是 其 中 一 半 的 数据 没有 变化 而 另外 一 半数 据 变化 了 2x， 还 可 能 是 其 他 组 


















































3.4 ”分 层 模 型 











合 。 根 据 Cohen”s d 得 到 的 效应 值 可 以 看 做 是 Z-score， 因 而 Cohen”s d 为 0.5 可 
以 解释 为 一 组 数据 相 比 另 一 组 数据 点 的 差别 是 0.5 倍 的 标准 差 。 使 用 Cohen”s d 
的 一 个 问题 是 不 太 好 解释 ， 我 们 需要 根据 有 具体 的 问题 来 说 明 该 值 是 太 大 、 太 小 
或 者 是 适中 。 当 然 ， 我 们 可 以 从 实践 中 得 到 些 经 验 ， 不 过 更 多 地 还 是 依赖 于 具 
体 问题 。 假 如 说 我 们 对 同一 类 问题 做 了 一 些 分 析 ， 然 后 得 到 Cohen’”s d 的 值 约 
为 1， 这 时 如 果 得 到 另外 一 个 Cohen”s d 的 值 〈 比 如 说 2)， 那 么 我 们 很 可 能 有 
了 重要 发 现 〈 也 可 能 是 某 个 地 方 弄 错 了 )。 在 http://rpsychologist.com/d3/cohend 
这 个 网 页 中 ， 你 可 以 探索 一 下 不 同 Cohen s d 的 值 都 长 什么 样 ， 此 外 ， 在 这 个 网 
页 中 还 可 以 看 到 一 些 描述 效应 值 的 其 他 方式 ， 其 中 某 些 方式 可 能 更 直观 《比如 概 
率 优势 )。 






































































































































3.3.3 ”概率 优势 

概率 优势 是 表示 效应 值 的 男 一 种 方式 ， 描 述 的 是 从 一 组 数据 中 取出 的 一 个 点 
大 于 从 另外 一 组 中 取出 的 点 的 概率 。 假 设 两 个 组 中 数据 的 分 布 都 是 正 态 分 布 ， 我 
们 可 以 通过 以 下 表达 式 从 Cohen s d 中 得 到 概率 优势 : 


和 

其 中 ，% 是 累计 正 态 分 布 ，6 是 Cohen”s d。 我 们 可 以 算出 概率 优势 的 点 估计 
(通常 列 出 的 是 该 值 )， 也 可 以 计算 出 概率 优势 的 分 布 。 注 意 到 ， 我 们 可 以 用 该 式 
根据 Cohen” s d 来 计算 概率 优势 ， 或者， 我 们 可 以 直接 将 其 从 后 验 中 计算 出 来 
(查看 练习 部 分 )。 这 正 是 使 用 MCMC 方法 的 一 个 很 大 好 处 。 一 旦 我 们 从 后 验 中 
得 到 了 采样 ， 我 们 就 可 以 算出 某 些 值 〈 比 如 概率 优势 等 ) 而 不 必 依 赖 于 具体 的 分 
布 假设 。 





















































































































































3.4 ”分 层 模 型 
假设 我 们 想 要 分 析 一 个 城市 的 水 质 ， 然 后 将 城市 分 成 了 多 个 相 邻 (或 者 水 文 
学 上 ) 的 区 域 。 我 们 可 以 用 如 下 两 种 方法 进行 分 析 : 


国 分 别 对 每 个 区 域 单独 进行 估计 ; 
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国 将 所 有 数据 都 混合 在 一 起 ， 把 整个 城市 看 做 一 个 整体 进行 估计 。 
两 种 方式 都 是 合理 的 ， 具 体 使 用 哪 种 取决 于 我 们 想 知道 什么 。 如 果 我 们 想 
了 解 具体 的 细节 ， 那 么 可 以 采用 第 1 种 方式 ， 因 为 假如 对 数据 进一步 做 了 一 些 平 
均 处 理 ， 那 么 一 些 细节 就 不 太 容 易 看 出 来 了 。 采 用 第 2 种 方式 则 可 以 将 数据 都 聚 
在 一 起 ， 得 到 一 个 更 大 的 样本 集 ， 从 而 得 出 更 准确 的 估计 。 两 种 方式 都 有 其 合理 
性 ， 不 过 我 们 还 可 以 找到 些 中 间 方 案 。 我 们 可 以 在 对 相 邻 区 域 的 水 质 进行 评估 的 
同时 对 整个 城市 的 水 质 进行 评估 ， 这 类 模型 称 为 层次 化 模型 或 者 分 层 模型 ， 这 人 么 
称呼 的 原因 是 我 们 对 数据 采用 了 一 种 层次 化 《或 者 是 分 层 ) 的 建 模 方式 。 

那么 如 何 构建 分 层 模型 呢 ? 简单 说 ， 就 是 在 先 验 之 上 使 用 一 个 共享 先 验 。 也 
就 是 说 ， 我 们 不 再 固定 先 验 参数 ， 而 是 直接 从 数据 中 将 其 估计 出 来 。 这 类 更 高 层 
的 先 验 通常 称 为 超 先 验 (hyper-prior)， 它 们 的 参数 称 为 超 参 数 ， 这 里 “ 超 ” 在 
希腊 语 中 是 “在 某 某 之 上 ”的 意思 。 当 然 ， 还 可 以 在 超 先 验 之 上 再 增加 先 验 ， 做 
到 尽 可 能 分 层 。 问 题 是 这 么 做 会 使 得 模型 变 得 相当 复杂 而 难以 理解 ， 而 且 除 非 问 
题 确 实 需 要 更 复杂 的 结构 ， 增 加 分 层 对 于 做 推断 并 没有 更 大 帮助 ， 相 反 ， 我 们 会 
陷入 超 参 和 超 先 验 的 混乱 中 而 无 法 对 其 做 出 任何 有 意义 的 解释 ， 从 而 降低 模型 的 
可 解释 性 。 毕 竟 ， 我 们 建 模 的 首要 目的 是 理解 数据 。 


为 了 更 好 地 解释 分 层 模型 中 的 主要 概念 ， 我 们 以 本 节 开 头 提 到 的 水 质 模 型 作 
为 例子 ， 使 用 一 些 构造 的 数据 来 讲解 。 假 设 我 们 从 同一 个 城市 的 3 个 不 同 水 域 得 
到 了 含 铅 量 的 采样 值 : 其 中 高 于 世界 卫生 组 织 (World Health Organization,WHO) 
标准 的 值 标记 为 0， 低 于 标准 的 值 标记 为 1。 这 个 例子 只 是 用 来 教学 ， 实 际 中 ， 
我 们 会 使 用 铬 含量 的 连续 值 ， 并 且 可 能 会 分 成 更 多 组 。 不 过 ， 对 我 们 来 说 ， 这 个 
例子 足够 用 来 揭示 多 层 模 型 的 细节 了 。 

我 们 通过 以 下 代码 合成 数据 : 





























































































































































































































































































































































































































N samples = [30, 30, 30] 
G samples = [18, 18, 18] 
group_idx = np.repeat (np.arange (len(N samples)), N samples) 


data = [] 
for i in range(0, len(N samples)): 
data.extend (np.repeat ([1, 0], [G samples[i], N samples[i]-G samples [i]]) 


这 里 进行 了 一 个 仿真 实验 ， 分 别 对 3 个 组 进行 了 一 定 次 数 的 采样 。 我 们 将 每 
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组 的 采样 总 数 放 在 列表 N_samples 中 ， 用 列表 G_samples 记录 每 组 中 合格 的 
采样 值 。 剩 下 的 代码 用 于 生成 0、1 数据 。 

模型 本 质 上 还 是 抛 硬币 问题 中 的 那个 模型 ， 不 同 之 处 在 于 需要 指定 影响 beta 
先 验 的 超 先 验 : 






























































Qa ~ HalfCauchy (pB, ) 
Bp~ Hal/Cauchy ( pp ) 
0~ Beta (a,p) 
y~ Bern(0) 








使 用 Kruschke 图 ， 可 以 清楚 地 看 到 新 的 模型 相 比 原来 的 模型 多 了 一 层 。 














hb 





half~Cauchy half~Cauchy 


站 


with pm.Model() as model _h: 
alpha = pm.HalfCauchy('alpha', beta=10) 
beta = pm.HalfCauchy('beta', beta=10) 


theta = pm.Betal('theta', alpha, beta, shape=len(N samples)) 
y = pm.Bernoulli('y', p=thetalgroup idx], observed=data) 
trace ]j = pm.sample (2000) 


chain h = trace h[200:] 
pm.traceplot (chain hy) 
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现在 和 我 一 起 做 个 简单 的 实验 。 我 需要 你 输出 模型 总 结 并 且 将 结果 保存 下 来 

















待 会 用 ， 然 后 再 分 别 重新 运行 模型 两 次 ， 其 中 一 次 将 所 有 的 G_samples 都 设 为 
3， 男 外 一 次 将 G_samples 设 为 [18,3,3]， 并 且 每 次 都 记录 下 模型 的 总 结 。 继 续 
阅读 之 前 ， 先 想 想 这 个 实验 的 结果 会 是 什么 重点 关注 每 次 实验 中 9 的 均值 。 根 
据 前 两 次 模型 的 运行 结果 ， 你 能 猜 出 第 3 种 情况 下 的 结果 吗 ? 












































如 果 将 结果 汇总 在 表格 中 ， 会 得 到 类 似 如 下 的 值 “注意 由 于 NUTS 采样 方法 


的 随机 性 ， 结 果 可 能 会 有 小 幅 波动 ): 


的 均值 为 0.6; 注意 现在 9 是 一 个 向 量 ， 因 为 现在 我 们 有 3 个 组 ， 每 个 组 都 有 





G samples Theta(mean) 




















18,18,18 0.6,0.6,0.6 
3,3;3 0.1,0.1,0.1 
18,3,3 0.53,0.14,0.14 








表 中 第 一 行 ， 可 以 看 到 对 于 30 个 样本 中 有 18 个 正 样本 的 情况 ，9 估计 值 








一 个 均值 。 第 2 行 中 ，30 个 样本 中 有 3 个 是 正 样本 ， 得 到 的 9 的 均值 为 0.1。 
最 后 一 行 中 的 结果 有 点 意外 ，9 的 均值 并 非 是 前 面 两 组 中 均值 的 组 合 ( 比 如 
0.6,0.1,0.1)， 而 是 0.53,0.14,0.14。 为 什么 呢 ? 是 模型 收敛 的 问题 还 是 模型 选 型 出 
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了 问题 ? 都 不 是 ， 是 我 们 的 估计 结果 趋向 了 整体 的 均值 。 事 实 上 ， 这 正 是 我 们 
模型 预期 的 结果 ， 在 设置 了 超 先 验 后 ， 我 们 直接 从 数据 中 估计 (beta〉 先 验 ， 每 
个 组 的 估计 都 受到 了 其 他 组 的 估计 值 的 影响 ， 同 时 也 影响 着 其 他 组 的 估计 值 。 换 
名 话说， 所 有 组 都 通过 超 先 验 共享 了 部 分 信息 ， 从 而 看 到 一 种 称 为 收缩 的 现象 ， 
其 效果 相当 于 对 数据 做 了 部 分 “ 池 化 ”(pooling)， 我 们 既 不 是 在 对 数据 分 组 建 
模 ， 也 不 是 将 数据 看 做 一 个 大 组 在 建 模 ， 而 是 介 于 二 者 之 间 ， 其 结果 之 一 就 是 
收缩 效应 。 


收缩 有 利于 更 稳定 的 推断 。 这 一 点 和 前 面 讨论 过 的 t+ 分 布 与 异常 点 的 关系 很 
像 。 使 用 重 尾 分 布 之 后 的 模型 对 于 偏离 均值 的 异常 点 表现 得 更 鲁 棒 〈 更 不 受 其 影 
啊 )。 引 入 超 先 验 后 ， 我 们 在 更 高 的 层次 上 进行 推断， 从 而 得 到 一 个 更 “保守 ” 
的 模型 (这 可 能 是 我 第 一 次 将 “保守 ”这 个 词 当做 讲义 词 )， 更 少 地 受到 每 个 组 
中 极限 值 的 影响 。 举 例 来 说 ， 假 设 我 们 在 某 个 相 邻 区 域 得 到 了 一 组 不 同 数量 的 采 
样 值 ， 采 样 数量 越 小 就 越 容易 得 到 错误 的 结果 。 极 限 情况 下 ， 假 设 在 这 片区 域内 
有 一 个 采样 值 ， 你 可 能 恰好 是 从 这 片区 域 的 某 个 铅 管 中 得 到 的 采样 值 ， 或 者 ， 有 
可 能 恰好 是 从 PVC 管道 中 得 到 的 采样 值 ， 从 而 可 能 导致 你 对 这 片区 域 的 水 质 高 
人 或 者 低估 。 在 多 层 模型 中 ， 估 计 出 错 的 情况 可 以 通过 其 他 组 提供 的 信息 进行 改 
善 。 当 然 ， 更 大 的 采样 值 同 样 能 达到 类 似 的 效果 ， 不 过 大 多 数 情 况 下 这 并 不 是 个 
候选 方案 。 
显然 ， 收 缩 的 程度 取决 于 数据 ， 数 量 更 大 的 组 会 对 其 他 数量 较 小 的 组 造成 
更 大 的 影响 。 如 果 大 多 数组 都 比较 相似 ， 而 其 中 某 组 不 太一 样 ， 相 似 的 组 之 间 会 
< 享 这 种 相似 性 ， 从 而 强化 共同 的 估计 值 ， 并 拉 近 表现 不 太一 样 的 那 一 组 的 估计 
值 ， 前 面 的 例子 中 也 已 经 体现 了 这 一 点 。 此 外 ， 超 先 验 也 对 收缩 的 程度 有 影响 。 
如 果 我 们 对 所 有 组 的 整体 分 布 有 一 些 可 以 信赖 的 先 验 信息 ， 那 么 可 以 将 其 加 入 到 
模型 中 并 将 收缩 程度 调整 到 一 个 合理 的 值 。 我 们 完全 可 以 只 用 两 个 组 来 构建 层 
级 化 模型 ， 不 过 通常 我 们 更 倾向 于 使 用 多 个 组 。 直 观 上 的 原因 是 ， 收 缩 其 实 是 
将 每 个 组 看 成 了 一 个 数据 点 ， 然 后 我 们 在 组 这 一 层 估计 标准 差 。 通 常 我 们 不 会 
太 相信 点数 较 少 的 估计 值 ， 除 非 对 估计 值 有 很 强 的 先 验 ， 这 一 点 对 层次 化 模型 
也 适用 。 


你 可 能 对 估计 到 的 先 验 分 布 比 较 感 兴趣 ， 以 下 是 将 其 表示 出 来 的 一 种 方式 : 
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应 当 多 加 利 月 


x = np.linspace(0, 1, 100) 

for i in np.random.randint (0, len (chain h), size=100): 
pdf = stats.beta(chain h['alpha'] [i], chain hl'beta'] [i]) .pdf (x) 
plt.plot (x, pdf, 'g', alpha=0.05) 


dist = stats.betal(chain hl['alpha'] .mean(), chain hl['beta'] .mean()) 

pdf = dist.pdf (x) 

mode = x[Inp.argmax (pdf)] 

mean = dist.moment (1) 

plt.plot (x, pdf, label='mode = {:.2f}\nmean = {:.2f}'.format (mode, mean)) 


plt.legend (fontsize=14) 
plt.xlabel (r'$\theta {prior}$', fontsize=16) 


12 


mode=0.61 
~ mean=0.60 


10 





1.0 


套用 Python 之 禅 的 说 法 ， 我 们 可 以 说 ， 分 层 模型 是 一 种 绝妙 的 理念 ， 我 们 











日 ! ” 在 接 下 来 的 章节 中 ， 我 们 会 继续 构建 分 层 模型 并 学 习 如 何 构 妈 





人 中 


更 好 的 模型 。 在 第 6 章 模 型 比较 部 分 ， 我 们 还 会 详细 讨论 构建 模型 过 程 中 的 过 拟 
合 和 欠 拟 合 问 题 。 





3.5 上 总结 
这 章 我 们 使 用 多 个 参数 扩展 了 构建 模型 的 能 力 ， 在 PyMC3 的 帮助 下 这 非常 
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者 注 
































Python 之 禅 的 最 后 一 句 话 是 :“ 命 名 空间 是 一 种 绝妙 的 理念 ， 我 们 应 当 多 加 利用 ! ”。 


承 








容易 实现 。 例 如 ， 











3.7 练习 


从 后 验 中 计算 边缘 分 布 只 需要 从 迹 中 选 出 相应 的 部 分 即 可 。 此 
外 ， 我 们 用 几 个 例子 学 习 了 如 何 从 后 验 分 布 中 提取 我 们 感 兴 趣 的 量 ， 比 如 合成 数 
据 ， 或 者 是 提取 能 够 更 好 地 解释 数据 的 量 。 起 初 我 们 使 用 的 是 高 斯 模型 ， 这 主 














要 是 因为 高 斯 模型 是 数据 分 析 的 支柱 之 一 ， 不 过 在 包含 异常 值 的 数据 上 应 用 高 斯 














分 布 时 遇 到 了 一 些 问 题 ， 然 后 我 
放松 ， 从 而 了 解 了 和 鲁 棒 模 型 的 概 
题 。 对 不 同 数据 组 进行 比较 是 数据 分 析 中 的 一 个 常见 任务 ， 
模型 ， 并 且 讨论 了 一 些 量化 指标 来 衡 
的 核心 概念 之 一 是 : 分 层 模 型 ， 或 者 说 是 如 何 结构 化 地 解决 问题 从 而 更 好 地 做 推 


























量 不 同 组 之 间 数 据 的 区 


门 学 习 了 使 用 + 分 布 对 数据 的 正 态 性 假设 做 一 些 
念 以 及 如 何 改进 一 个 模型 使 其 适用 于 具体 的 问 




















断 ， 并 且 通 过 部 分 池 化 不 同 组 的 信息 收缩 估计 值 。 


下 一 章 我 们 将 学 习 线性 





3.6 ”深入 阅读 








口 
加 《Statistical Rethinking》 中 的 第 12 章 
加 《Bayesian Data Analysis, Third Edition》 中 的 第 5 章 
国 
型 以 及 Rugby 的 例子 


3.7 练习 





























对 此 我 们 使 用 了 高 斯 
别 。 最 后 ， 我 们 学 到 


























模型 以 及 如 何 利用 线性 模型 解释 数据 。 


《Doing Bayesian Data Analysis, Second Edition》 中 的 第 9 章 


阅读 完 本 书 第 4 章 后 ， 记 得 读 一 下 PyMC3 的 文档 中 有 关 GLM 的 多 层 模 








(1) 对 于 本 章 的 第 一 个 模型 ， 将 高 斯 分 布 的 先 验 均值 修改 为 一 个 经 验 性 均 











值 ， 用 几 个 对 应 的 标准 差 多 跑 几 遍 ， 观 察 推断 过 程 对 这 些 变化 的 鲁 棒 性 /敏感 性 
如 何 。 你 觉得 用 一 个 没有 限制 上 下 界 的 高 
样 ? 记 住 我 们 说 过 数据 不 可 能 大 于 100 或 者 小 于 0。 


(2) 利用 第 一 个 例子 中 的 数据 ， 分 别 在 包含 和 不 包含 异常 值 情况 下 ， 计 算出 



























































经 验 均值 和 标准 差 。 将 结 


加 更 多 异常 值 并 





E 复 该 过 程 。 





与 使 用 高 








斯 分 布 和 +t 分布 的 贝 叶 














分布 对 有 上 下 界 的 数据 建 模 的 效果 怎 

















斯 估计 进行 比较 ， 增 
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(3) 修改 小 费 例 子 中 的 模型 ， 使 其 对 于 异常 点 更 鲁 棒 。 分 别 尝 试 对 所 有 组 
使 用 一 个 共享 的 v 和 单独 为 每 个 组 设置 一 个 w， 最 后 对 这 3 个 模型 进行 后 验 预 
测 检查 。 


(4) 直接 从 后 验 中 计算 出 概率 优势 ( 先 不 要 计算 Cohen”’s d)， 你 可 以 用 
sample _ppc() 函数 从 每 个 组 中 获取 一 个 采样 值 。 对 比 这 样 做 与 基于 正 态 假设 
的 计算 是 否 不 同 ? 并 对 结果 做 出 解释 。 

(5) 重复 水 质 对 比 的 例子 ， 不 过 不 用 多 层 模型 ， 而 是 使 用 一 个 均匀 分 布 〈 比 
如 Beta(aw =1,B=1))。 比 较 两 种 模型 的 结果 。 

(6) 在 小 费 的 例子 中 ， 对 一 个 星期 中 的 不 同 天 使 用 部 分 池 化 操作 ， 构 建 一 个 
多 层 模型 ， 将 结果 与 不 使 用 多 层 模型 的 结果 进行 对 比 。 

(7) 重复 本 章 中 的 所 有 例子 ， 用 finqMAP () 函数 的 返回 值 来 初始 化 采样 。 
看 是 否 能 得 到 相同 的 推断 结果 。 同 时 看 一 下 find MAP () 函数 对 退化 过 程 的 数量 
以 及 推断 的 速度 有 什么 影响 。 

(8) 对 所 有 模型 进行 诊断 测试 并 采取 相应 措施 ,比如 ， 如 果 有 必要 ， 增 加 采 
样 次 数 。 

(9) 对 本 章 中 的 至 少 一 个 模型 使 用 你 自己 的 数据 并 运行 。 牢 记 第 1 章 中 提 到 
的 构建 模型 的 3 个 步骤 。 
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利用 线性 回归 模型 理解 并 预测 数据 


这 一 章 我 们 将 学 习 统计 学 和 机 器 学 习 中 应 用 最 广泛 的 模型 之 一 : 线性 回归 模 
型 。 这 个 模型 除了 本 身 非 常 有 用 之 外 ， 还 可 以 看 做 是 许多 其 他 模型 的 基石 。 如 果 
你 上 过 统计 学 的 课程 (即使 是 非 贝 叶 斯 的 )， 你 可 能 会 听 说 过 线性 回归 、 逻 辑 回 
归 、ANOVA 和 ANCOVA 等 。 所 有 这 些 方法 都 是 同一 个 主题 的 变种 : 线性 回归 
模型 ， 这 也 正 是 本 章 将 要 讨论 的 核心 主题 。 

本 章 将 涵盖 以 下 内 容 : 
线性 回归 模型 
一 元 线性 回归 ; 

鲁 棒 线性 回归 ; 
多 层 线性 回归 ; 
多 项 式 回 归 ; 
多 元 线性 回归 ; 
交互 作用 。 



























































4.1 一 元 线性 回归 

在 科学 界 、 工 业界 及 商业 中 ， 经 常会 遇 到 下 面 这 类 问题 : 我们 有 一 些 连续 变 
量 ， 这 里 连续 的 意思 是 变量 可 以 用 实数 表示 〈 或 者 说 是 浮 点 数 )， 我 们 称 之 为 因 
变量 、 被 预测 的 变量 或 者 结果 变量 。 我 们 想 要 对 该 因 变量 与 其 他 变量 的 依赖 关系 
建 横 ， 这 里 其 他 变量 称 自 变量 、 预 测 变量 或 者 输入 变量 。 自 变量 可 以 是 连续 的 ， 
也 可 以 是 离散 的 。 这 类 问题 一 般 可 以 通过 线性 回归 建 模 ， 如 果 我 们 只 有 一 个 自 变 
量 ， 那 么 称 为 一 元 线性 回归 模型 ， 如 果 有 多 个 自 变量 ， 称 为 作 多 元 线性 回归 模 
型 。 使 用 线性 模型 的 一 些 典型 场景 如 下 。 
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国 对 多 个 因素 之 间 的 关系 建 模 ， 例 如 雨量 、 土 壤 盐 
答 一 些 问 题 : 比如 它们 之 间 的 关系 是 
素 的 影响 最 强 ? 





程 中 是 否 


施肥 ， 然 后 回 
关系 有 多 强 ? 哪个 因 








国 找 出 全 国 




















渍 度 以 及 农作物 生长 过 
否 是 线性 的 ? 














F 均 的 巧克力 摄 入 量 与 诺 贝尔 奖 得 主 数量 2 


什么 这 二 者 之 间 的 关系 可 能 是 假 的 。 





国 根据 当地 天 气 预 报 中 的 太阳 辐 
该 预测 的 准确 性 




















如 何 ? 


4.1.1 与 机 器 学 习 的 联系 


按照 Kevin P. Murphy® 的 
自动 学 习 其 中 的 隐藏 规律 ， 





中 
中 做 决策 的 方法 。 




















他 书 中 所 说 ， 如 果 从 概率 的 角度 来 看 ， 
i 域 在 概念 上 和 数学 上 都 紧密 联系 ， 不 过 二 者 之 间 的 术语 可 








这 两 个 领 














说 法 ， 机 器 学 习 是 
A 
机 器 学 习 与 统计 学 相互 交织 ， 
二 者 之 间 的 关系 就 比较 清晰 了 。 尽 管 























机 器 学 习 
中 ， 如 果 我 们 想 学 























的 行 贡 


联系 显得 不 那么 清晰 。 
天 来 说 ， 回 

















因此 ， 在 这 




















:有 监督 的 意 


: 思 是 指 ， 





续 变量 。 这 























AE 








作案 














说 ， 我 们 知 





中 抽象 出 一 种 映射 关系 来 处 





情形 )。 


道 了 了 





E 确 








口外 ; 


剩 下 的 问 





4.1.2 ”线性 回归 模型 的 核心 


前 面 已 经 讨论 了 线性 
习 的 术语 之 间 构 建 一 座 桥 这 


回归 的 一 些 基本 时 




















这 个 等 式 
直线 的 斜率 ， 这 如 



































() Machine Learning: a Probabilistic Perspective 








未 来 的 观测 (也 就 是 只 知道 





思想 ， 


斜率 可 以 理解 为 变量 x 的 单位 变化 量 所 对 应 y 的 变化 量 。 


3 


之 间 的 关系 。 理 解 为 








吕 射 预测 家 里 《用 于 烧 水 和 做 饭 ) 的 燃气 账单 。 





一 个 总 和 


， 指 一 系列 从 数据 





不 过 正如 Kevin P.Murphy 在 





能 让 这 种 





一 章 中 ,我 会 介绍 一 些 机 器 学 习 中 的 术语 。 
归 问 题 属于 典型 的 监督 学 习 。 在 机 器 学 习 的 框架 
习 从 x 到 y 的 一 个 映射 这 就 是 一 个 回归 问题 ， 其 中 yy 是 连 
我 们 已 经 知道 成 对 的 x 和 y。 某 
题 就 是 如 何 从 这 些 观测 值 〈 或 者 数据 集 ) 


























童 田 来 
局 心 上 











x 而 不 知道 ?的 


现在 我 们 需要 在 统计 学 和 机 器 学 





























， 来 学 习 如 何 构建 线性 模型 。 看 下 面 这 个 公式 ; 
yi=0+ Px 
述 的 是 变量 x 与 变量 y 之 间 的 线性 关系 。 其 中 ， 参 数 B 控制 的 是 








男 





一 书 的 作者 。 一 一 译 者 注 








[ 78 


了 本 


外 一 个 参数 a 可 以 解释 为 当 xF0 时 六 的 值 ， 在 区 


点 的 坐标 。 





计算 线性 模型 参数 的 方法 有 很 多 ， 最 小 二 乘法 是 方法 之 一 。 





去 拟 合 直线 的 时 人 














最 优化 3 




















4.1 一 元 线性 回归 





中 表示 ，& 就 是 直线 与 轴 交 














最 优化 问题 的 





























吴 ， 其 底层 可 能 就 是 用 的 该 方法 ， 这 种 方法 返 
证 观测 到 的 了 与 预测 的 了 之 间 
了 一 个 最 优化 问题 ， 


每 次 使 用 软件 
回 的 a 和 能 够 





误差 平方 的 均值 最 小 。 这 样 ， 估 计 w 和 就 变 成 
目标 一 般 是 寻找 函数 的 最 小 值 〈 或 最 大 值 )。 
非 求解 线性 模型 的 唯一 方法 ， 同 样 的 问题 还 可 以 从 概率 ( 贝 叶 斯 的 




















角度 描述 。 用 概率 的 方式 思考 带 来 的 优势 是 : 我 们 在 得 到 最 优 c 和 (与 最 优 


化 方法 求解 结果 相同 ) 的 同时 还 知道 这 些 参数 的 不 确定 性 ， 
一 些 其 他 工作 来 提供 这 类 信息 。 此 外 ， 我 们 得 到 的 还 
这 意味 着 我 们 可 以 将 模型 应 














建 分 层 线 性 模型 。 



























































从 概率 的 角度 ， 线 性 回归 模型 可 以 表示 成 如 下 形式 : 

















如 下 : 








y~N(u4=a+pPx,o =€) 


也 就 是 说 ， 这 里 假设 向 量 y 是 服从 均值 为 atBx、 标 准 差 为 e 的 正 态 分 
布 。 由 于 我 们 并 不 知道 ag、B 或 者 e， 


























Qa ~ N(Ha,oa) 
pbp~ N(1g,08) 
Ee~U(0,h,) 








的 值 域 很 大 。 通 常 我 们 3 




















不 知道 截 距 是 多 少 ， 









































而 最 优化 方法 需要 
了 贝 叶 斯 方法 的 灵活 性 ， 
j 到 特定 的 问题 中 ， 比 如 将 正 态 假设 移 除 ， 或 者 构 

















因此 需要 对 其 设置 先 验 ， 一 组 合理 的 先 验 





对 于 ca 的 先 验 ， 我 们 可 以 使 用 一 个 分 布 很 平坦 的 高 斯 分 布 ， 即 cc 相对 数据 
其 具体 的 值 根 据 问题 不 同 有 很 大 变 











化 。 对 于 斜率 来 说 同样 如 此 ， 对 很 多 问题 而 言 ， 我 们 至 少 根据 先 验 知道 它 是 否 
于 0。 对 于 & 来 说 ， 我 们 可 以 根据 y 的 值 域 ,设置 为 一 个 比较 大 的 值 ， 例 如 ， 














半 酒 江 





> 


将 其 设 为 》 的 标准 差 的 10 倍 。 
要 有 效 地 选择 了 相对 平坦 的 9 
。 其 中 均匀 分 布 还 可 以 换 成 半 正 态 分 布 或 者 3 
为 一 个 不 错 的 正则 多 
标准 差 设置 很 强 的 5 
































E 验 ( 








\ 体 见 第 6 章 ) 很 有 效 。 妇 








E 验 ， 那 么 可 以 使 

















j 伽 马 分 布 。 









































在 这 个 贝 叶 斯 模型 中 ， 对 于 单 参数 线性 回归 问题 ， 
E 验 ， 我 们 可 以 得 到 和 最 小 二 乘 方 拟 合 一 样 的 结 
和 柯 西 分 布 。 通 常 ， 半 柯 西 分 布 作 
1 果 我 们 希望 在 某 些 值 附近 给 
在 许多 软件 库 中 ， 伽 马 分 布 的 
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默认 参数 看 起 来 有 点 奇怪 ， 不 过 和 幸运 地 是 PYMC3 可 以 让 我 们 同时 使 用 形状 和 比 
例 或 者 均值 和 方差 来 定义 。 
继续 讨论 线性 回归 之 前 ， 先 看 一 下 伽 马 分 布 在 不 同 参 数 下 的 形状 : 


rates = [1，2，5] 
scales = [1，2，3] 


[uy 





























x = np.linspace (0, 20, 100) 
f, ax = plt.subplots(len(rates), lenl(scales), sharex=True, sharey=True) 
for i in range (len(ass)): 
for ] in range(len(scales)): 
rate = rates[i] 
Scale = scales[j] 
rv = stats.gamma (a=rate, scale=scale) 
axlirTlsplot (x Evidt (a) 
axlirIl. Blot.(0, ‘0 
label="$\\alpha$ = {:3.2f}\n$\\theta$ = {:3.2f}".format (rate, 
scale), alpha=0) 
ax[i,j] .legend() 
ax[2,1] .set xlabel ('$x$') 
ax[1,0] .set ylabel('S$pdf (x)$') 
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4.1 











再 来 看 线性 回归 模型 ， 借 助 Kruschke 图 ， 我 们 有 下 面 这 张 图 : 


op Or 
Ha AL 
normal normal half~Cauchy 


> 























atpx 局 
HL o 
normal 
y 











现在 需要 将 数据 输出 给 模型 ， 这 里 再 次 使 用 了 合成 数据 ， 来 构建 对 模型 的 直 














一 元 线性 回归 











观 认识 。 先 假设 已 经 知道 参数 的 真实 值 ， 然 后 构造 出 数据 集 ， 最 后 下 








了 利用 














其 找 出 来 。 


np.random.seed (314) 
N= 100 

Lfa Peal = ad 
beta real = Qe9 


eps_real = np.random.normal (0, 0.5, size=N) 


x = np.random.normal (10, 1, N) 
y_real = alfa real + beta real ”x 


Y= Y_ real. + eps real 





plt.figure (figsize= (10,5)) 

plt. subplot (1,2.,1) 

Blt.plot (x Yr "Sb ") 

plt.xlabel ('$x$', fontsize=16) 
plt.ylabel('$y$', fontsize=16, rotation=0) 
plt.plot (x Y real; "k') 
Blt.Subplot (1 .2.2) 

sns.kdeplot (y) 

plt.xlabel('$y$', fontsize=16) 


模型 ; 





各 





第 4 章 利用 线性 回 








归 模型 理解 并 预测 数据 


0.45 
0.40 
0.35 
0.30 
0.25 
0.20 
0.15 
0.10 
0.05 
0.00 


10 11 12 13 7 8 9 10 11 12 13 14 15 16 
Ls y 


现在 用 PyMC3 来 拟 合 数 据 ， 代 码 看 起 来 和 前 面 的 模型 都 差不多 ， 不 过 留意 这 

















止 我 们 见 过 的 所 

















里 是 通过 pm.Deterministic 来 定义 的 ， 也 就 是 说 该 变量 是 确定 的 。 目 前 为 
变量 都 是 随机 的 ， 也 就 是 说 ， 每 次 求 随机 变量 值 的 时 候 ， 都 会 






































得 到 一 个 不 同 的 值 。 而 在 这 里 ， 确 定 的 变量 意味 着 甚 值 完全 由 参数 决定 ， 尽 管 在 
下 面 的 代码 中 这 些 参数 是 随机 的 。 如 果 我 们 声明 子 个 变量 是 确定 的 ， 那 么 PyMC3 
会 将 其 保存 在 迹 中 。 














with pm.Model 























() as model: 


alpha = pm.Normal ('alpha', mu=0, sd=10) 


beta = pm.Normal ('beta'，mu=0，Sdq=1) 


epsilon = 


mu = pm.Deterministic('mu', alpha + beta 


y Ered = 


pm.HalfCauchy('epsilon', 5) 


pm.Normal('y pred', mu=mu, sd=epsilon, observed=y) 


start = pm.find MAP () 


step = pm.Metropolis () 


trace = pm.sample (10000, step, start) 


此 外 ， 还 可 以 省 略 固定 变量 的 声明 而 直接 写 为 如 下 语句 ; 


y_pred = pm 
observed=y) 














来 


Normal('Yy pred"; mu= Aalpha + beta * xX; Sd=epsilon, 





traceplot 函数 返回 的 图 像 很 有 趣 。 注 意 其 中 和 参数 在 缓慢 地 上 下 小 





动 ; 对 了 比 之 下 ， 只 


pm.traceplot( 




















2 的 迹 呈 现 了 较 好 的 混合 度 。 显 然 ， 出 问题 了 。 














chain); 
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4.1 一 元 线性 回归 


2000 4000 6000 
epsilon 


2000 4000 6000 


PA /YAN ww 


8000 10000 





Rn00 10000 


上 面 的 自 相关 图 表明 ， a 和 有 很 强 的 自 相 关 性 ， 而 g 没有 。 接 下 来 我 们 会 看 


到 ，3 


Vv 








这 是 线性 模型 的 典型 表现 。 注 意 这 里 通过 给 











役 有 男 出 确定 的 变量 4。 























arnames = ['alpha', 'beta', 'epsilon'] 


pm.autocorrplot (trace, varnames) 
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4.1.3 ”线性 模型 与 高 自 相 关 性 





前 面 的 模型 中 ，c 和 8 有 很 糟糕 的 自 相关 性 ， 











autocorrplot 传递 varnames 








这 意味 着 采样 


民 差 ， 而 且 相 比 
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实际 的 采样 数 ， 有 效 的 采样 很 少 。 为 什么 呢 ? 其 实 我 们 是 被 自己 的 假设 误导 了 。 
事实 上 ， 不 论 我 们 用 哪 条 直线 去 拟 合 数据 ， 它 们 都 会 穿 过 一 点 ，x 的 均值 和 y 的 
均值 点 。 因 此 ， 拟 合 直 线 的 过 程 相当 于 将 直线 固定 在 数据 的 中 心 上 进 行 旋转 ， 和 斜 
率 越 大 截 距 越 小 。 根 据 模型 的 定义 ， 两 个 参数 是 相关 的 ， 如 果 将 后 验 画 出 来 的 话 
可 以 很 清楚 地 看 到 这 点 (这 里 暂时 忽略 =)。 


























sns.kdeplot (trace['alpha'], trace[l'beta']) 
plt.xlabel (r'$\alpha$', fontsize=16) 
plt.ylabel(r'$\beta$', fontsize=16, rotation=0) 


1.05 





1.0 1.5 20， 2.5 3.0 3.5 


可 以 看 到 ， 后 验 ( 除 了 之 外 ) 呈 斜 对 角形 状 ， 对 于 类 似 Metropolis-Hastings 的 
算法 ， 这 可 能 会 存在 问题 。 因 为 如 果 给 每 个 独立 的 参数 设置 一 个 较 大 的 步 长 ， 
那么 很 可 能 会 落 在 高 概率 区 域 以 外 ， 只 有 步 长 设 得 很 小 的 时 候 ， 被 接受 的 概率 
才 会 较 高 。 不 管 哪 种 方式 我 们 都 会 得 到 很 高 的 自 相 关 性 和 较 差 的 混合 度 ， 而 且 
数据 的 维度 越 高 ， 这 种 情况 越 严 重 ， 因 为 总 的 参数 空间 要 比 可 能 的 参数 空间 增 
长 得 快 得 多 ， 关 于 这 点 可 以 查阅 维基 百科 中 维 数 灾 难 的 内 容 进行 了 解 。 

在 继续 深入 之 前 ， 请 允许 我 澄清 一 点 ， 前 面 提 到 的 拟 合 直线 会 穿 过 数据 的 均 
值 点 只 在 最 小 二 乘 方 算法 的 假设 下 成 立 。 使 用 贝 叶 斯 方法 之 后 ， 这 个 限制 被 放松 
了 。 后 面 的 例子 中 我 们 可 以 看 到 ， 通 常 直 线 会 在 x 和 y 的 均值 附近 而 不 是 正好 穿 
过 均值 。 不 过 没关系 ， 自 相关 性 与 直线 固定 在 某 一 点 附近 的 假设 仍然 是 成 立 的 ， 
关于 高 自 相 关 性 问题 我 们 需要 了 解 的 就 是 这 么 多 了 ， 接 下 来 我 们 会 从 两 个 方面 理 
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4.1 一 元 线性 回归 





解 和 解决 高 自 相关 性 问题 。 























运行 之 前 先 修改 数据 
解决 问题 的 一 个 简单 办 法 是 先 将 x 中心 化 ， 也 就 是 说 ， 对 于 每 个 点 x， 减 去 


x 的 均值 (xX)。 








X' 一 X 一 XX 











这 样 做 的 结果 是 x' 的 中 心 在 0 附近 ， 从 而 修改 斜率 时 旋转 点 变 成 了 截 距 点 ， 
参数 空间 也 会 变 得 不 那么 自 相 关 。 








中 心 化 不 仅仅 是 一 种 计算 技巧 ， 同 时 有 利于 解释 数据 。 截 距 是 指 当 xi=0 时 


y; 的 值 ， 不 过 对 于 


或 者 体重 这 类 数值 











许多 问题 而 言 ， 截 距 并 没有 什么 实际 的 意义 。 例 如 ， 对 于 身高 


























就 没有 任何 帮助 ， 





， 当 值 为 0 时， 并 没有 实际 的 意义 ， 因 而 截 距 对 于 理解 数据 也 
对 于 另外 一 些 问 题 ， 估 计 出 截 距 可 能 很 有 用 ， 因 为 在 实验 中 我 






























































们 可 能 无 法 测量 出 x=0 的 情况 ， 但 截 距 的 估计 值 可 以 为 我 们 提供 有 价值 的 信息 。 








不 管 怎 么 将 ， 推 断 都 有 其 局 限 性 ， 应 当 说 慎 使 用 。 












































根据 问题 和 受众 不 同 ， 我 们 可 能 需要 汇报 中 心 化 之 前 或 者 之 后 估计 到 的 参数 




















值 。 如 果 我 们 需要 汇报 的 是 中 心 化 之 前 的 参数 ， 那 么 可 以 像 下 面 这 样 将 参数 转换 


成 原来 的 尺度 : 


上 面 的 公式 可 


a=0 -px 


以 通过 以 下 公式 推导 出 来 : 





X'=X-—x 
y=Q'+P'x +e 
y=a'+P'(x-x)+e 


y=0' -PB'x+PB'x+e 


然后 可 以 得 出 : 





a=0'+P'x 


B=P' 











更 进一步 ， 在 运行 模型 之 前 ， 我 们 可 以 对 数据 进行 标准 化 处 理 。 标 准 化 在 
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统计 学 和 机 器 学 习 中 是 一 种 常见 的 数据 处 理 手段 ， 这 是 因为 许多 算法 对 于 标准 
化 之 后 的 数据 效果 更 好 。 标 准 化 的 过 程 是 在 中 心 化 之 后 再 除 以 标准 差 ， 其 数学 
形式 如 下 : 












































lA 
Xa 
y=2 > 
sa 


标准 化 的 好 处 之 一 是 我 们 可 以 对 数据 使 用 相同 的 弱 先 验 ， 而 不 必 关 心 数据 
的 具体 值 域 有 多 大 ， 因 为 我 们 已 经 对 数据 进行 了 尺度 变换 。 对 于 标准 化 之 后 的 数 
据 ， 截 距 通常 在 0 附近 ， 和 斜率 在 -1 一 1 附近 。 标 准 化 之 后 的 数据 可 以 使 用 标准 
分 数 〈Z-score) 来 描述 参数 。 如 果 某 人 声称 一 个 参数 的 标准 分 数值 为 1.3， 那 么 
我 们 就 知道 该 值 在 标准 化 之 前 位 于 均值 附近 1.3 倍 的 标准 差 处 。 标 准 分 数 每 变化 
一 个 单位 ， 那 么 对 应 原始 数据 中 变化 1 倍 的 标准 差 。 这 一 点 在 分 析 多 个 变量 时 很 
有 用 ， 因 为 所 有 的 参数 都 在 同一 个 尺度 ， 从 而 简化 了 对 数据 的 解释 。 














































































































更 换 采 样 方法 

男 外 一 种 解决 高 自 相 关 性 的 办 法 是 使 用 不同 的 采样 方法 。NUTS 算法 与 
Metropolis 算法 相 比 ， 在 类 似 受 限 的 对 角 空 间 中 过 到 的 困难 小 一 些 。 原 因 是 NUTS 
是 根据 后 验 的 曲率 来 移动 的 ， 因 而 更 容易 沿 着 对 角 空间 移动 。NUTS 算法 每 走 一 步 
要 比 Metropolis 算法 更 慢 ， 不 过 要 得 到 一 个 合理 的 后 验 近 似 值 所 需要 的 步 数 更 少 。 


下 面 将 讨论 使 用 NUTS 采样 方法 得 到 的 结果 。 













































































4.1.4 对 后 验 进行 解释 和 可 视 化 

前 面 我 们 已 经 知道 了 如 何 使 用 PyMC3 中 的 traceplot 和 df summary 治 
数 或 者 一 些 自 定 义 的 函数 探索 后 验 。 对 于 线性 回归 ， 一 种 更 好 的 表现 方式 是 将 拟 
合 数 据 的 平均 直线 与 a 和 的 均值 同时 表示 在 图 上 : 


Blt.plot(w Yr "be )? 
alpha m = trace nl'alpha'] .mean() 















































beta m = trace n['beta'] .mean() 
plt.plot(x, alpha m + beta m * x, c='k', label='y = {:.2f} + {:.2f} * 
x'.format (alpha m, beta m)) 





4.1 一 元 线性 回归 


plt.xlabel ('$x$', fontsize=16) 
plt.ylabel('$y$', fontsize=16, rotation=0) 
plt.legend (loc=2, fontsize=14) 


15 
一 一 y=2.12+0.94*x 
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13 
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10 





7 8 9 10 11 12 13 
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或 者 ， 我 们 还 可 以 从 后 验 采 样 中 画 出 半 透 明 的 直线 来 表示 后 验 的 不 确定 性 。 
代码 如 下 。 





一 一 y=2.12+0.94*x 





plt .plot(xr Yr br) 


idx = range'(0; len'(trace nl"alpha']), 10) 
plt.plot (x, trace n['alpha'][idx] + trace n['beta'] [idx] *x[:,np. 
newaxis], c='gray', alpha=0.5); 
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plt.plot(x, alpha m + beta m * x, c='k', label='y = 


"format( 


tae. (sg 


alpha m, beta m)) 


blt.xlabel ("$xs", 
plt.ylabel ('$y$', 
plt.legend (loc=2, fontsize=14) 


可 以 看 到 ， 上 图 中 间 部 分 的 不 确定 性 较 低 ， 不 过 直 
(后 验 并 不 强制 所 有 的 直线 都 穿 过 均值 点 )。 
半 透 明 的 直线 
半 透 明 的 区 间 描 述 j 的 最 大 后 验 密度 (HPD) 


fontsize=16) 





fontsize=16, rotation=0) 
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起 来 不 错 ， 不 过 我 们 可 能 想 给 这 个 图 增加 点 更 酷 的 东西 : 
区 间 。 注 意 这 也 是 在 模型 
































由 定义 成 一 个 确定 值 的 主要 原因 ， 简 化 以 下 代码 : 


plt.plot(x, alpha m + beta m * x, c='k', = 


label='y 





X' .format (alpha m,beta m)) 


PF 将 变量 


没有 都 相交 于 一 个 点 


| 


四 





{:.2£} + {:.2£} * 


我 们 想 要 根据 模型 看 到 未 来 95% 和 50% 的 数据 的 分 布 范 围 


idx = np.argsort (x) 
XX[idx] 
pm.hpd (trace nl[' 


x_ord 


sig mu'], alpha=.02) [jx] 


plt.fill between(x ord, sig[:,0], sig[3,1]” {or="'Aray') 


plt.xlabel ('$x$', 
plt.yLlabel ('$y$', 


fontsize=16) 


fontsize=16, rotations=0) 


7 8 9 10 11 12 13 




















男 外 一 种 方式 是 画 预 测 值 3 的 HPD〔 例 如 95% 和 50%) 区 间 。 也 就 是 说 ， 
。 我 们 在 图 中 将 














4.1 一 元 线性 回归 











50%HPD 区 间 用 深 灰 色 区 域 表 示 ， 将 95%HPD 区 间 用 浅 灰 色 表 示 。 利 用 PyMC3 
中 的 sample ppc 函数 可 以 很 容易 得 到 预测 值 的 采样 值 。 

ppc = pm.sample ppc (chain n, samples=1000, model=model n) 

然后 我 们 可 以 画 出 结果 。 


blt .plot (x Yr BS.."y) 
plt.plot(x, alpha m + beta m * x, c='k', label='y = {:.2f} + {:.2f} * 
X' .format (alpha m, beta m)) 





sig0 = pm.hpd(ppc['y pred'], alpha=0.5) [idx] 

sigl = pm.hpd(ppc[l'y pred']; alpha=0.05) [idx] 

plt.fill between (x ord, sig0[:;0], sig0[:;1], tolor='gray', alpha=1) 
Plt.fill between'(x ord,; sigl[:;0]l, sigl[:,1], ¢olor='gray', alpha=0.5) 


plt.xlabel('$x$', fontsize=16) 
plt.ylabel('$y$', fontsize=16, rotation=0) 





ey 8 9 10 11 12 13 
图 中 HPD 区 间 的 边界 不 是 很 规划， 原因 是 : 为 了 画 出 这 个 图 ， 我 们 是 从 观 
测 值 x 而 不 是 从 连续 区 间 中 得 到 的 后 验 预测 采样 ， 此 外 ，f11_ petween 函数 只 
是 简单 地 对 相 邻 点 之 间 进 行 线性 差 值 。 留 意 锯 齿 的 尖锐 程度 与 数据 数量 之 间 的 关 
系 ， 可 以 通过 从 y pred 中 获取 更 多 的 采样 值 来 减少 不 规则 的 程度 。 








4.1.5 ”皮尔 逊 相 关系 数 
许多 时 候 ， 我 们 希望 衡量 两 个 变量 之 间 的 《线性 ) 依赖 关系 。 衡 量 两 个 变量 
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之 间 线 性 相关 性 
的 值 为 +1， 我 人 























皮尔 逊 相关 系数 # 














中 的 斜率 弄 混 淆 ， 查 看 以 下 链接 中 的 医 


最 常见 
] 称 这 两 个 变量 完全 下 相关， 也 就 是 说 一 个 变量 随 着 另外 一 个 变 
那么 称 为 完全 负 相关 ， 也 就 是 说 一 个 变量 随 
减少 ; 当 7 为 0 时 ， 我 们 称 两 个 变 
不 涉及 非 线 性 相关 性 。 人 们 很 容易 将 皮尔 逊 相关 系数 与 回 
白 二 者 本 质 上 是 两 个 不 同 的 量 : 


量 的 增加 而 增加 ， 如 果 的 值 为 -1， 
着 男 一 个 变量 的 增加 而 


回归 模型 理解 并 预测 数据 








LL 的 指标 是 皮尔 


名 相关 系数 ， 通 常用 小 写 的 r+ 表示。 如 果 r 





















































四 三 骨 


量 之 间 没 有 线性 相关 性 。 














名 











就 可 以 明 
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https://en.wikipedia.org/wiki/Correlation and dependence#/media/File:Correlation 


examples2.svg 














下 面 的 公式 可 以 在 某 种 程度 上 减轻 你 的 疑惑 : 


也 就 是 说 ， 只 有 在 x 和 y 的 标准 差 相 等 时 ， 皮 








当 我 们 对 数据 标准 化 时 ， 上 式 是 成 立 的 。 需 要 注意 : 
国 皮尔 逊 相关 系数 衡量 的 是 两 个 变量 之 间 的 相关 性 程度 ， 其 值 位 于 [-1,1] 
区 间 内 ， 与 数据 的 尺度 无 关 ; 
































国 斜率 表示 的 是 x 变化 








个 单位 








J Jy 的 变化 量 ， 


尔 逊 相关 系数 才 与 斜率 相等 。 








日 





可 以 取 任 意 实数 。 








皮尔 进 相 关系 数 与 决定 系数 (Coefficient 6f Determination) 之 间 有 联系 ， 对 




















于 线性 回归 模型 而 言 ， 














决定 系数 就 是 皮尔 逊 相关 系数 的 平方 ， 即 产 〈 或 者 尺 )。 























决定 系数 





j 于 度量 变量 的 变异 中 可 以 














j 自 变 




















现在 ， 我 们 扩展 下 线性 
国 一 种 方式 是 使 有 








回 











其 记 作 变 量 rb。 














作 变 量 rss。 











直线 与 数据 均值 之 间 的 离 差 ， 与 模型 











量 解释 部 分 所 占 的 比例 。 
归 横 型 ， 利 用 PyMC3 从 两 个 方面 计算 x 和 x。 
日前 面 看 到 的 皮尔 逊 相关 系数 与 斜率 之 间 关 系 的 公式 ， 将 


另 一 种 方式 与 最 小 二 乘 方 算 法 相关 ， 这 里 暂时 跳 过 其 来 源 细 节 ， 将 其 记 


仔细 阅读 代码 可 以 看 到 ， 变 量 ss_reg 衡量 的 是 拟 合 的 





FP 的 方差 成 比例 ， 其 公式 与 方差 很 


像 ， 不 过 没有 除 以 数据 的 个 数 。 变 量 ss_tot 与 预测 值 的 方差 成 比例 。 








完整 的 模型 如 下 : 





with pm.Model() as model n: 


alpha = pm.Normal ('alpha', 


mu=0, sd=10) 





4.1 一 元 线性 回归 


beta = Pm.Normal ('beta', mu=0, sd=1) 
epsilon = pm.HalfCauchy('epsilon', 5) 


mu = alpha + beta * x 
y_pred = pm.Normal('y pred', mu=mu, sd=epsilon, observed=y) 


rb = pm.Deterministic('rb', (beta * x.std() / y.std()) ** 2) 


y_mean = y.mean () 

ss _ reg = pm.math.sum((mu - y mean) ** 2) 

ss tot = pm.math.sum((y - y mean) ** 2) 

rss = pm.Deterministic('rss', ss reg/ss tot) 


start = pm.find MAP () 

step = pm.NUTS() 

trace n = pm.sample(2000, step=step, start=start) 
pm.traceplot (chain n) 
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pm.df_summary (cadena n, varnames) 
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mean sd mce_error hpd 2.5 hpd 97.5 
alpha 2.11 0.49 1.87e-02 1.21 13 
beta 0.94 0.05 1.82e-03 0.84 1.03 
epsilon 0.45 0.03 1.30e-03 0.39 0.52 
rb 0.80 0.08 3.09e-03 0.64 0.96 
TSS 0.80 0.08 3.22e-03 0.64 0.95 























根据 多 元 高 斯 分 布 计算 皮尔 逊 相关 系数 

男 一 种 计算 皮尔 逊 相关 系数 的 方法 是 估计 一 个 多 元 高 斯 分 布 的 方差 算 阵 。 我 
们 暂时 只 考虑 二 维 的 情况 ， 一 旦 理解 了 两 个 变量 的 情况 之 后 ， 理 解 更 高 维度 就 会 
很 容易 了 。 为 了 充分 描述 二 元 高 斯 分 布 ， 我 们 需要 两 个 均值 (或 者 一 个 长 度 为 2 
的 向 量 )， 每 个 均值 对 应 一 个 边缘 高 斯 分 布 ， 此 外 还 需要 两 个 标准 差 ， 这么 说 其 
实 不 太 准 确 ， 事 实 上 我 们 需要 一 个 像 下 面 这 样 的 2X2 的 协 方差 矩阵 ; 


-| POx2 . 


POx20x1 pe 
其 中 ,> 是 大 写 的 希腊 字母 希 格 玛 ， 通 常用 其 表示 协 方差 算 阵 。 在 主 对 
角 线 上 的 两 个 元 素 分 别 是 每 个 变量 的 方 星 9 朋 标 准 关 5 和 an 的 平方 表示 ， 
剩余 的 两 个 元 素 分 别 是 协 方差 〈 变 量 之 间 的 共 变 ), 用 每 个 变量 标准 莽 和 P 
《变量 之 间 的 皮尔 逊 相关 系数 ) 来 表示 。 注 意 这 里 只 有 一 个 p， 原 因 是 我 们 只 
有 两 个 变量 ， Ce 
对 应 会 有 6 个 p。 计 算 这 些 数 需要 用 到 二 项 系数 ， 回 忆 一 下 第 1 章 中 的 二 项 
分 布 。 
下 面 的 代码 生成 了 一 些 二 维 高 斯 分 布 的 等 值 线 图 ， 其 中 均值 都 固定 在 《0.0)， 
标准 差 cu 取 1， 另 外 一 个 标准 差 ce 分 别 取 1 或 者 2， 皮尔 逊 相关 系数 取 -1 到 1 
之 间 的 不 同 值 。 
































































































































































































































































































































sigma xl1 = 1 
sigmas x2 = [1, 2] 
rhost = [=Qe90 =Des Oy Oss O99] 


i Y= Np ngrid[l-9:5:1: -5:81] 
pos = np.empty (x.shape + (2,)) 
BOslsr SQ0) = KX poslsy Yr 4] = 





4.1 一 元 线性 回归 


f, ax = plt.subplots(len(sigmas x2), len(rhos), sharex=True, sharey=True) 


for i in range (2): 
FoF 1 i TangEe (DY) 

sigma x2 = sigmas x2[i] 

rho = rhos[j] 

cov = [[sigma xl**2, sigma xl*sigma x2*rho], 
sigma xl*sigma x2*rho, sigma x2**2]] 
rv = stats.multivariate normal([0, 0], cov) 
axli JI]aeontour(x YY TV.PAart(pos)) 


a lLot(0 0 


label="$\\sigma {{x2}}$ = {:3.2f}\n$\\rho$ = {:3.2f}".format (Sigma 
x2, rho), alpha=0) 








ax[i,j] .legend() 
ax[1l,2] .set xlabel('$x 1$') 
ax[1,0] .set ylabel('$x 2$') 





4 lal00 aa=1.00 oa=1.00 oa=1.00 aa=1.00 
p=-0.99 p=-0.50 p=0.00 p=0.50 p=0.99 
"Nl ne nea nln nv 

> 

-4 
4 oo=2.00 Ia=2.00 Oo=2.00 Oo=2.00 Oo=2.00 

D=-0.99 p=-0.50 p=0.00 p=0.50 p=0.99 

2 

-2 

-4 


-4-2024 -4-2024 -4-2024 -4-2024 -4-2024 


了 解 了 多 维 高 斯 分 布 之 后 ， 我 们 就 可 以 拿 它 来 估计 皮尔 逊 相关 系数 了 。 由 
于 我 们 并 不 知道 协 方差 窃 阵 ， 可 以 先 为 其 设置 一 个 先 验 。 一 种 做 法 是 使 用 威 沙特 
分 布 (Wishart distribution)2， 威 沙特 分 布 是 多 维 正 态 分 布道 协 方差 矩阵 的 共 罗 先 
验 ， 可 以 看 作 是 前 面 见 过 的 伽 马 分 布 在 高 维 空间 的 一 般 形 式 ， 也 可 以 看 作 卡 方 分 
布 (chi squared distribution) 的 一 般 形 式 。 另 一 种 做 法 是 使 用 LKJ 先 验 ， 该 先 验 
于 相关 性 矩阵 的 《不 是 协 方差 矩阵 )， 如 果 考 虑 相关 性 的 话 ， 使 用 起 来 更 方便 




















































































































(GD Wishart distribution 虽然 是 协 方差 矩阵 的 共 斩 先 验 ， 在 MCMC 中 它 的 混合 度 很 差 而 且 很 难 
从 中 准确 采样 ， 我 们 推荐 使 用 LKJCorr 或 LKJCholeskyCov 作为 协 方差 矩阵 的 先 验 。 一 一 译 者 注 
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一 些 。 这 里 我 们 讨论 第 3 种 做 法 ， 直 接 为 cu 





动 构造 协 方差 矩阵 。 


with pm.Model() as pearson model: 


0w 和 p 设 置 先 验 ， 然 后 用 这 些 值 手 


mu = pm.Normal ('mu', mu=data.mean(0), sd=10, shape=2) 


sigma 1 = pm.HalfNormal('sigma 1', 10) 
sigma 2 = pm.HalfNormal('sigma 2', 10) 
rho = pm.Uniform('rho', -1, 1) 


COW = 


sigma 2*rho, sigma 2**2])) 


pm.math.stack(([sigma 1**2, sigma 1l*sigma 2*rho], 


[sigma 1* 


y_pred = pm.MvNormal ('y pred', mu=mu, Cov=cov, observed=data) 


start = pm.tind MAP () 


step = pm.NUTS (scaling=start) 


trace p = pm.sample (1000, step=step, start=start) 


mu 
, 3 
EE 时 
和 汪 
2 上 
[0] 
“9.5 10.0 10.5 11.0 1s 12.0 12.5 
Sigma_1 
6 
要 , 
瑟 
3 3 
名 2 a 
1 
0 
0.7 0.8 0.9 1.0 1.1 1.2 1.3 
6 Sigma_2 
5 
4 三 
i 
2 & 
户 1 目 
0 0) 
0.8 09 1.0 1.1 :2 1.3 1.4 
rho 
四 3 
§ EE 
2 兰 
请 E 
[0] 


80 082 084 086 088 090 092 094 096 
注意 这 里 得 到 的 o 是 皮尔 逊 相关 系数 ， 而 前 面 的 例子 中 得 到 的 是 皮尔 逊 相 
关系 数 的 平方 ， 考 虑 这 点 之 后 你 会 发 现 这 里 得 到 的 结果 与 前 面 例子 中 的 结果 是 





一 致 的 。 


Scoocoooo 
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4.2 鲁 棒 线 性 回归 
在 许多 情况 下 ， 假 设 数据 服从 高 斯 分 布 是 非常 合理 的 。 我 们 假设 数据 符合 


高 斯 特性 ， 











并 不 是 说 数据 真 的 就 是 符合 高 斯 
于 我 们 的 问题 而 言 是 一 个 合理 的 近似 。 前 
立 ， 例 如 出 现 异 第 值 的 时 候 ， 























4.2 鲁 棒 线 性 回归 


1 分 布 的 ， 而 是 说 我 们 认为 高 斯 分 布 对 



































和 我 们 知道 了 ， 有 时 候 高 斯 假设 并 不 成 
利用 t 分 布 ， 可 以 有 效 地 解决 异常 值 的 问题 ， 从 而 




















得 到 更 鲁 
为 了 验 订 





数据 集 : 




















棒 的 推断 。 类 似 的 思想 同样 可 以 应 用 到 线性 回归 问题 中 。 
Et 分 布 确实 能 增加 线性 回归 的 鲁 棒 性 ， 这 里 我 们 使 用 一 个 非常 简单 的 








安 斯 库 姆 四 重奏 (Anscombe's quartet) 中 的 第 3 组 数据 。 如 果 你 不 知道 安 斯 

















库 姆 四 重奏 数据 集 ， 可 以 在 维基 百科 上 查看 ， 





这 里 我 们 从 seaborn 中 加 载 它 。 























]['x'] .values 


]['y'] .values 


ans = sns.load dataset ('anscombe') 
x 3.= anslans.dataset == "III" 

了 3 = anslanssdataset == "LLIIN 
然后 来 看 看 这 个 数据 集 长 什么 样 。 
plt.figure (figsize= (10,5)) 


plt. 


beta Gy alpha ae = stats.linregress'\ 


plt. 





subplot(1, 2;1) 


plot (x 3; (alpha c + beta 


X' .format (alpha c, beta c)) 


pl 





人 DD 


:Bloti(x 3 Y 3: "bBo") 
.xlabel('$x$', fontsize=16) 
.ylabell(' 

.legend (loc=0, fontsize=14) 
"SUubpLot(L; 2 
.kdeplot (y 3); 
.Xlabel('$y$', fontsize=16) 


$y$', rotation=0, 


一 一 y=3.00+0,.50*x 


7 


X37 3) [2:2] 


‘kK; label="y ={:s2f} + {0:2£f} * 


fontsize=16) 
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现在 我 们 用 上 分 布 蔡 换 模型 中 的 高 斯 分 布 ， 这 个 改变 需要 引入 正 态 参 数 y， 
有 关 该 参数 的 含义 ， 可 以 参照 前 一 章 的 内 容 。 


在 下 面 的 模型 中 ， 我 们 使 用 了 移 位 指数 分 布 来 避免 nu 的 值 接近 0， 因 为 非 移 
位 指数 分 布 对 于 0 附近 的 值 赋予 了 太 高 的 权重 。 根 据 我 的 经 验 ， 对 于 没有 异常 点 或 
者 含有 少量 异常 点 的 数据 集 而 言 ， 使 用 非 移 位 指数 分 布 就 够 了 ， 不 过 对 于 某 些 包含 
极限 异常 值 的 数据 (或 者 是 只 有 少量 聚集 点 的 数据 集 〉 而 言 ， 例 如 我 们 用 到 的 安 斯 
库 姆 四 重奏 数据 集 的 第 3 组 ， 移 位 指数 分 布 更 合适 。 这 些 建议 都 只 是 基于 我 (或 
者 别人 ) 处 理 某 些 数据 集 或 者 问题 的 经 验 。 此 外 ， 正 态 参 数 v 的 一 些 常 见 先 验 还 有 
gamma (2,0.1) 或 者 gamma (mu=20，sd=15)。 


注意 ， 在 PyMC3 中 以 下 划 线 _ 结尾 的 变量 ， 如 nu_〔 译 者 注 : 新 版 本 的 
PyMC3 中 写成 _nu )， 对 于 用 户 是 不 可 见 的 。 
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with pm.Model() as model +t: 





alpha = pm.Normal('alpha', mu=0, sd=100) 

beta = pm.Normal('beta', mu=0, sd=1) 

epsilon = pm.HalfCauchy('epsilon',s 5) 

nu = pm.Deterministic('nu', pm.Exponential(/nu 1, 1/29) + 1) 


y pred = pm.StudentT('y pred', mu-alpha + beta *x 3, sd-epsilon, nu=nu, observed=y 3) 


start = pm.find MAP () 
step = pm.NUTS (scaling=start) 
trace 七 = pm.sample(2000, step=step, start=start) 


这 里 为 了 节省 版 面 ， 省 略 一 些 代码 和 图 〈《 如 迹 和 自 相 关 性 的 图 )， 不 过 你 自 
己 尝 试 的 时 候 可 别 这 么 做 。 我 在 这 里 只 画 出 了 平均 的 拟 合 直线 ， 此 外 还 用 SciPy 
中 的 linregress 函数 画 了 一 条 非 鲁 棒 的 直线 。 你 可 能 需要 尝试 根据 前 面 例 子 中 的 
贝 叶 斯 方法 画 出 对 应 的 直线 。 






























































beta ce; alpha cc = statss linregress (x 3 YY 3)[:2] 


plt.plot(x 3, (alpha c + beta c * x 3), 'k', label='non-robust', alpha=0.5) 
blt ,plot(w 3 YY 3 "be") 

alpha m = trace tl'alpha'] .mean() 

beta m = trace t['beta'] .mean() 

plt.plot(x 3, alpha m + beta m * x 3, c='k', label='robust') 





plt.xlabel ('$x$', fontsize=16) 





4.2 鲁 棒 线 性 回归 


plt.ylabel('$y$', rotation=0, fontsize=16) 
plt.legend (loc=2, fontsize=12) 


一 一 non-robust 
— robust 


3 
4 6 8 10 12 14 


执行 下 后 验 预 测 检查 ， 看 看 模型 是 如 何 捕 换 数据 的 。 这 里 可 以 用 PyMC3 蔡 
我 们 从 后 验 中 采样 : 


























PPc = pm.sample ppc (chain t, samples=200, model=model t, random seed=2) 
to ytilde in EBel'Y pred']: 

sns.kdeplot (y tilde, alpha=0.5, c="'g') 
sns.kdeplot (y 3, linewidth=3) 


然后 会 看 到 类 似 下 面 的 图 : 


























0.05 


0.00 
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对 大 多 数 数据 ， 我 们 都 拟 合 得 相当 不 错 ， 而 且 注 意 ， 这 里 不 仅 对 中 心 部 
分 的 数据 拟 合 得 很 好 ， 对 于 异常 点 部 分 也 拟 合 得 不 错 。 对 于 当前 的 目标 来 
说 ， 这 个 模型 表现 得 不 错 ， 不 需要 更 多 的 改进 了 。 不 过 ， 在 某 些 问题 中 ， 我 
们 可 能 不 希望 有 负数 ， 这 种 情况 下 ， 我 们 可 能 需要 回 过 头 修改 下 模型 ， 限 制 
yy 为 正 数 。 





























4.3 分 层 线性 回归 


前 面 ， 我 们 学 习 了 分 层 模型 的 基础 知识 ， 现 在 我 们 可 以 将 这 些 概 念 应 用 到 
线性 回归 ， 在 组 这 一 层 同时 对 多 个 组 建 模 并 进行 估计 。 和 前 面 一 样 ， 这 里 是 通 
过 引入 超 先 验 实现 的 。 我 们 先 创 建 8 个 相关 的 数据 组 ， 其 中 包括 一 个 只 有 一 个 
点 的 组 。 









































idx = np.repeat (range (M-1), N) 
idx = np.append (idx, 7) 


alpha real = np.random.normal (2.5, 0.5% si2esM) 
beta real = np.random.beta(60, 10, size=M) 


eps_real = np.random.normal (0, 0.5, size=len (idx)) 


ym = np.zeros (len (idx)) 
x m= np.random.normal (10, 1, len (idx)) 


* 


y m= alpha reallidx] + beta reall[lidx] *Y x m + eps real 
我 们 的 数据 如 下 : 


j, k= 0，N 

for i in range (M) : 
BltSubBlot(2r dL+1) 
plt.scatter (x m[j:k], y m[j:k]) 
SN 芝 主 (区 二 
pltsyLiim(y, 17) 
j += N 
k += N 

plt.tight layout() 





4.3 分 层 线性 回归 
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在 输入 到 模型 之 前 ， 先 对 其 进行 中 心 化 处 理 : 





x centered =xm- x m.meanl() 
首先 ， 和 前 面 的 做 法 一 相 
部 分 代码 将 a 转换 到 原始 的 尺度 。 








# ， 先 用 非 多 层 的 模型 拟 合 ， 唯 一 的 区 别 是 需要 增加 

















with pm.Model() as unpooled model: 
alpha tmp = pm.Normal('alpha tmp', mu=0, sd=10, shape=M) 
beta = pm.Normal ('beta', mu=0, sd=10, shape=M) 
epsilon = pm.HalfCauchy('epsilon', 5) 


nu = pm.Exponential('nu', 1/30) 


y pred = pm.StudentT('y pred', mu=alpha tmpl[idx] + betal[lidx]* x centered, 


sd=epsilon, nu=nu, observed=y m 
alpha = pm.Deterministic('alpha', alpha tmp - beta *x m.mean()) 


start = pm.find MAP () 
step = pm.NUTS (scaling=start) 
trace up = pm.sample(2000, step=step, start=start) 


从 结果 中 可 以 看 到 ， 除 了 其 中 一 组 a 和 参数， 大 多 数 情况 下 结果 都 很 正常 。 
根据 它们 的 迹 来 看 ， 似 乎 这 一 组 参数 一 直 在 自由 移动 而 没有 收敛 。 








I 
































varnames=['alpha', 'beta', ‘'epsilon', 'nu'] 
pm.traceplot (trace up, varnames); 
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显然 ， 用 一 条 唯 














给 w 加 入 一 


的 直线 去 拟 合 一 个 点 是 
或 者 参数 w 和 有 是 有 界 的 ， 除 非 我 们 能 


合适 的 ， 我 们 至 少 需要 
提供 一 些 额外 的 信息 《比如 加 入 先 验 )， 
个 很 强 的 先 验 能 够 得 到 一 组 明确 定义 的 先 验 ， 即 使 我 们 的 数据 中 只 


两 个 点 ， 


有 一 个 点 。 男 一 种 方式 是 通过 构建 多 层 模型 往 模型 中 加 入 信息 ， 这 主要 是 因为 多 





层 模 型 中 组 与 组 之 间 的 信息 














据 )， 








现 








一 


中 一 


归 模 型 相同 的 多 层 模型 ， 不 过 这 次 


先 验 ， 你 可 以 从 下 面 的 Kruschke 图 中 看 到 。 


4 1 了 局 
NS half~cauchy 








Er 


Vv a 1) 
t distrib. 


能 够 共享 ， 这 :2 
常 有 用 。 这 里 我 们 用 到 的 例子 中 将 数据 稀疏 性 推 癌 子 极致 〈 其 
目的 是 将 问题 描述 得 更 清楚 
在 我 们 实现 一 个 与 前 面 线性 回 


只 有 一 个 数 





4.3 分 层 线性 回归 











-J 





昌 PyMC3 代码 实现 的 模型 与 之 前 模型 的 主要 区 别 如 下 。 


加 增加 了 超 先 验 。 

国 增加 了 几 行 代码 将 参数 转换 到 中 心 化 之 前 的 尺度 。 记 住 这 并 非 强制 的 ， 
我 们 完全 可 以 将 参数 保留 在 转换 后 的 尺度 上 ， 只 是 对 结果 进行 解释 的 时 
候 需 要 小 心 。 

图 使 用 了 ADVI 而 不 是 finq MAP() 函数 去 初始 化 ， 为 NUTS 算法 提供 了 
一 个 协 方差 缩放 和 矩阵。 如 果 你 不 记得 什么 是 ADVI 了 ， 可 以 看 一 下 第 2 
章 中 的 相关 理论 描述 以 及 第 2 章 练习 部 分 更 偏 实际 一 些 的 讨论 。 
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with pm.Model() as hierarchical model: 
alpha tmp mu = pm.Normal('alpha tmp mu', mu=0, sd=10) 
alpha tmp sd = pm.HalfNormal('alpha tmp sd', 10) 
beta mu = pm.Normal('beta mu', mu=0, sd=10) 
beta sd = pm.HalfNormal('beta sd', sd=10) 


alpha tmp = pm.Normal('alpha tmp', mu=alpha tmp mu, sd=alpha tmp_ 
sd, shape=M) 

beta = pm.Normal('beta', mu=beta mu, sd=beta sd, shape=M) 

epsilon = pm.HalfCauchy('epsilon', 5) 

nu = pm.Exponential('nu', 1/30) 


y_pred = pm.StudentT('y pred', mu=alpha tmp [Idx] + beta[idx] * x_ 


centered, sd=epsilon, nu=nu, observed=y _m) 


alpha = pm.Deterministic('alpha', alpha tmp - beta * x m.mean()) 

alpha mu = pm.Deterministic('alpha mu', alpha tmp mu - beta mu * x_ 
m.mean ()) 

alpha sd = pm.Deterministic('alpha sd', alpha tmp sd - beta mu * x_ 


m.mean () ) 


mu, sds, elbo = pm.variational.advi (n=100000, verbose=False) 
cov_ scal = np.power (hierarchical model.dict to array(sds), 2) 
step = pm.NUTS (scaling=cov scal, is cov=True) 


trace hm = pm.sample (1000, step=step, start=mu) 
接 下 来 是 traceplot 部 分 ， 包括 只 有 一 个 点 的 组 。 


varnames=["alpha'; "alpha mu “alpha sd'y "beta" ‘beta mu'y "beta sd 
"epsilen"; "nmi"] 


pm.traceplot (trace hm, varnames) 
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将 拟 合 的 直线 画 出 来 ， 包 括 只 有 一 个 点 的 那 一 组 。 显 然 ， 那 条 直线 主要 受到 
了 其 他 组 数据 点 的 影响 。 
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4.3 分 层 线性 回归 


j, k= 0,N 
x range = np.linspace (x m.min(), x m.max(), 10) 
for i in range (M) : 
Blt,subplot.(2,4,1+1) 
plt-scatter(x mlj:klj: y mlj:k]) 
alfa m = cadena al'alpha'][:,i].mean() 
beta m = cadena al'beta'][:,i].mean() 
plt.plot (x range, alfa m + beta m*x range, c='k', label='y = 
{:.2f} + {:.2f} * x'.format (alfa m, beta m) 








plt.xlim(x m.min()-1, x m.max()+1) 
plt.ylim(y m.min()-1, y m.max()+1) 
j += N 
k += N 


plt.tight layout() 
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4.3.1 相关 性 与 因果 性 

现在 假设 已 经 知道 了 当地 的 太阳 辐射 量 ， 我 们 想 要 预测 冬天 家 里 的 燃气 费 。 
在 这 个 问题 中 ， 太 阳 的 辐射 量 是 自 变量 x， 燃 气 费 是 因 变 量 。 当然 ， 我 们 完全 
可 以 将 问题 反 过 来 ， 根 据 燃气 费 推算 太阳 辐射 量 ， 一 旦 我 们 建立 了 一 种 线性 关系 
(或 者 其 他 什么 关系 )， 我 们 就 可 以 根据 x 得 出 y， 或 者 反 过 来 这 么 做 。 我 们 称 一 
个 变量 为 自 变 量 是 因为 它 的 值 不 是 从 模型 中 预测 出 来 的 ， 而 是 作为 模型 的 输入 ， 
相应 的 因 变 量 作为 模型 的 输出 。 当 我 们 说 一 个 变量 依赖 于 另 一 个 变量 的 时 候 ， 这 
其 中 的 依赖 关系 是 由 模型 决定 的 。 
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我 
.= 这 人 句 训 


但 











6: 相关 性 并 不 意味 着 





回归 模型 理解 并 预测 数据 























中 的 燃气 费 预测 出 太阳 辐射 量 
但 是 我 们 显然 并 不 能 通过 调节 燃气 阀门 来 控制 太阳 的 辐射 量 。 不 过 ， 太 PB 


























的 高 低 是 与 燃气 费 的 高 低 相 关 的 。 
因此 ， 需 要 强调 一 点 ， 我 们 构建 的 统计 模型 是 一 回 事 





又 是 另外 一 回 
一 些 可 
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比如 3 个 小 时 )。 如 果 这 么 做 之 后 能 订 

















四 













































































量 逐 渐 增 加 ， 














事 。 想 要 将 相关 性 解释 为 因 
言 的 物理 
并 没有 因果 关系 的 变 


那么 ， 相 关 性 是 否 在 确定 因 
能 够 进行 一 些 精心 设计 的 实验 ， 那 么 相关 改 
说 ， 我 们 知 
测 ， 我 们 无 法 得 H 
的 上 升 导致 了 温度 升 高 。 更 进 








果 关 系 ， 我 们 还 需要 给 问题 的 
机 制 ， 仅 仅 相关 性 还 不 够 。 有 一 个 网 页 ， 





FE 实 二 氧化 矶 含量 
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量 预 测 出 家 中 的 
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门 建立 的 并 不 是 变量 之 间 的 因果 关系 ， 即 并 不 是 说 x 导致 了 yy。 永远 要 记 
因果 关系 。 就 这 个 话题 多 说 一 点 ， 我 们 可 能 根据 家 
或 者 反 过 来 根据 太阳 辆 映 


燃气 费 。 





日 辐射 量 

















变量 之 间 的 物理 机 制 

















述 增加 























果 关 系 的 。 





描述 了 一 些 有 相关 性 但 
量 : http://www.tylervigen.com/spurious-correlations。 
果 关 系 时 一 点 用 都 没有 呢 ? 不 是 。 事 实 上 ， 如 
是 能 够 用 于 文 撑 因 
道 全 球 变 暧 与 大 气 中 二 氧化 碳 的 





四 
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举例 来 





含量 是 高 度 相 关 的 。 仅 仅 根据 这 个 观 














间 的 阳光 照射 


结论 是 温度 升 高 导致 的 二 氧化 碳 含量 上 升 ， 还 是 二 氧化 碳 含量 
步 ， 可 能 存在 某 种 我 们 没 考虑 到 的 第 3 个 变量 ， 
导致 二 氧化 碳 含量 和 温度 同时 上 升 了 。 不 过 ， 我 们 可 以 设计 一 个 实验 ， 将 玻璃 箱 
子 中 充满 不 同比 例 的 二 氧化 碳 含 量 ， 划 
其 余 箱 子 中 二 氧化 碳 含 





中 一 个 是 正常 空气 中 的 含量 〈( 约 0.04% ) ， 
然后 让 这 些 箱子 接受 一 定时 






























































E 较 高 的 箱子 温度 也 更 高 ， 
那么 就 能 得 出 二 氧化 碳 的 含量 导致 温室 效应 的 结论 。 同 样 的 实验 ， 我 1 
来 让 相同 二 氧化 碳 含量 


门 可 以 反 过 
的 箱子 接受 不 同 温度 的 照射 ， 然 后 可 以 看 到 二 氧化 碳 含量 








并 不 会 上 升 〈 至 少 空气 中 的 二 氧化 碳 含量 不 会 上 升 )。 事 实 上 ， 更 高 的 温度 会 导 
致 二 氧化 碳 含量 的 上 升 ， 因 为 海洋 中 蕴含 着 二 氧化 碳 ， 随 着 温度 上 升 ， 水 中 绚 合 


的 二 氧化 碳 含 量 会 


问题 。 


这 个 例子 中 还 有 一 点 需要 说 明 下 ， 尽 管 太阳 辐射 量 与 燃气 费 相 关 ， 根 据 大 





降低 。 简 言 之 ， 人 全球 
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台 上 是 - 


有 里 


量 可 能 预测 出 燃气 费 ， 不 过 如 果 考 虑 到 一 些 其 他 变 
了 。 我 们 一 起 来 看 一 下 ， 更 高 的 太阳 辐射 量 意 
被 反射 掉 了 ， 还 有 部 分 转化 成 了 热能 ， 





FE 在 变 暖 而 我 们 没 























yp 
YO 
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采取 足够 措施 解决 该 


这 中 间 的 关系 就 














中 部 分 热 


2 








味 着 更 多 的 能 量 传递 到 家 
量 被 房子 吸收 ， 


还 有 部 分 散失 到 环境 中 了 。 热 能 消失 多 少 取决 于 许多 因素 ， 比 如 室外 的 温度 、 











4.4 多 项 式 回 归 
































风力 等 。 此 外 ， 我 们 还 知道 ， 燃 气 费 也 受到 很 多 因素 影响 ， 比 如 国际 上 石 ; 
和 燃气 的 价格 ， 燃 气 公司 的 成 本 /利润 《及 其 贫 郴 程度 ) ， 国 家 对 燃气 公司 的 
管控 等 。 而 我 们 在 尝试 用 两 个 变量 和 一 条 直线 对 所 有 这 一 切 建 模 。 因 此 ， 充 
分 考虑 问题 的 上 下 文 是 有 必要 的 ， 而 且 有 利于 得 出 更 合理 的 解释 ， 降 低 得 出 
殉 雇 结论 的 风险 ， 从 而 得 到 更 好 的 预测 ， 此 外 还 有 可 能 为 我 们 提供 线索 改进 


模型 。 


































































































4.4 ”多 项 式 回 归 
接 下 来 ， 我 们 将 学 习 如 何 用 线性 回归 拟 合 曲线 。 使 用 线性 回归 模型 去 拟 合 曲 
线 的 一 种 做 法 是 构建 如 下 多 项 式 : 
























































化 = Pox" + Bx +PBx” + 4 


如 果 留 心 的 话 ， 可 以 看 到 多 项 式 中 其 实 包 含 了 一 元 线性 回归 模型 ， 只 需要 将 
n 大 于 1 的 系数 记 , 设 为 0 即 可 ， 然 后 得 到 下 式 : 












































KH=PBx" +PBx 
多 项 式 回 归 仍 然 是 线性 回归 ， 这 里 线性 的 意思 是 指 模型 中 的 参数 是 线性 组 合 
的 ， 而 不 是 指 变量 是 线性 变化 的 。 现 在 我 们 先 从 一 个 简单 的 多 项 式 〈 抛 物 线 ) 开 
始 构 建 多 项 式 回归 模型 : 























LH=PBx +Bx TD 


其 中 第 3 项 控制 的 是 曲率 。 我 们 选用 安 斯 库 姆 
通过 seaborn 将 其 载 入 并 画 出 来 。 
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I 第 2 组 作为 数据 集 ， 











下 人 


ans = sns.load dataset ('anscombe') 
x 2 = ans[lans.dataset = 


y2 = dnslang dataset, == “11I"]I"Y'] values 
x 2=x2- x 2.mean!l) 
y 2=Yy2- y 2.mean!l) 
plt.scatter (x 2; YY 2) 
plt.xlabel ('$x$', fontsize=16) 

plt.ylabel('$y$', fontsize=16, rotation=0) 
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with pm.Model() as model _ Poly: 
alpha = pm.Normal('alpha', mu=0, sd=10) 
betal = pm.Normal('betal', mu=0, sd=1) 
beta2 = pm.Normal('beta2', mu=0, sd=1) 
epsilon = pm.Uniform('epsilon', lower=0, upper=10) 


mu = alpha + betal * x 2 + beta2 * x 2** 








y_pred = pm.Normal('y pred', mu=my, 


start = pm.find MAP () 

step = pm.NUTS (scaling=start) 

trace poly = pm.sample(3000, step=step, art=start) 
pm.traceplot (trace poly) 
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4.4 多 项 式 回 归 
































这 里 再 次 省 略 了 一 些 检查 和 总 结 ， 只 将 结果 画 了 出 来 ， 可 以 看 到 一 条 非常 好 
1 线 完 美 拟 合 了 数据 ， 几 乎 没有 误差 。 




















看 的 








x b= np.linspace(=6, 6) 

yYP = trace polyl['alpha'] .mean() + trace poly['betal'] .mean() * x_ 
p + trace poly['beta2'] .mean() * x p**2 

plt.scatter (x 2 Yy 2) 

plt.xlabel ('$x$', fontsize=16) 

plt.ylabel('$y$', fontsize=16, rotation=0) 

Blt.plot(x Bp: Y Br C="F") 
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4.4.1 解释 多 项 式 回归 的 系数 

多 项 式 回 归 的 问题 之 一 在 于 参数 的 可 解释 性 。 如 果 我 们 想 知 道 y 相对 于 x 的 
变化 量 ， 不 能 只 看 Bb,， 因 为 B, 和 更 高 项 的 系数 对 其 也 有 影响 。 因 此 ， 系 数 B 的 
值 不 再 表示 和 斜率 。 前 面 的 例子 中 p, 是 正 数 ， 因 而 曲线 是 以 一 个 大 于 0 的 斜率 开 
始 的 ， 不 过 由 于 pp, 是 负数 ， 因 而 随后 曲线 的 斜率 开始 下 降 。 这 看 起 来 就 好 像 有 
两 股 力 量 ， 一 个 使 直线 向 上 ， 另 一 个 使 直线 向 下 ， 二 者 相互 作用 的 结果 取决 于 
x， 当 x< ~ 11 时， pi 起 决定 作用 ， 而 当 x> 一 11 时 ，p, 起 决定 作用 。 

如 何 解释 参数 不 仅仅 是 个 数学 问题 ， 因 为 我 们 可 以 通过 仔细 检查 和 理解 模 
型 来 解决 这 个 问题 。 不 过 许多 情况 下 ， 参 数 并 不 能 根据 我 们 的 领域 知识 转换 成 有 
意义 的 量 ， 我 们 无 法 将 其 与 细胞 的 新 陈 代谢 速率 或 者 恒星 释放 的 能 量 或 者 房间 里 
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bam 




















测 很 有 用 ， 不 过 对 于 理解 








中 ， 超 过 2 阶 或 者 3 阶 的 多 项 式 模 型 并 没有 多 大 用 途 ， 我 们 更 倾向 于 使 用 一 些 其 




















的 卧室 数 联系 起 来 。 它 们 只 是 些 没有 物理 意义 的 参数 。 这 样 一 个 模型 或 许 对 于 预 











数据 在 底层 是 如 何 生 成 的 并 没有 多 大 帮助 。 而 且 在 实际 
























































他 模型 ， 这 部 分 将 在 后 面 的 章节 中 讨论 。 








4.4.2 ”多 项 式 回 归 一 一 终极 模型 ? 
我 们 知道 ， 直 线 可 以 看 作 是 当 为 0 时 的 抛物 线 的 子 模型 ， 还 可 以 看 作 是 pp， 
和 8p; 都 为 0 时 的 3 次 方 模型 的 子 模 型 。 显 然 ， 抛 物 线 模型 也 可 以 看 作 是 当 p; 为 0 









































时 3 次 方 模型 的 子 模型 …… 
































… 这 意味 着 有 一 种 算法 可 以 使 用 线性 回归 模型 去 拟 合 任意 












































复杂 的 模型 ， 我 们 先 构 建 一 个 无 限 高 阶 的 多 项 式 ， 然 后 将 其 中 的 大 部 分 参数 置 零 ， 
直到 我 们 得 到 对 数据 的 完美 拟 合 。 为 了 验证 这 个 想法 ， 你 可 以 从 简单 的 例子 开始 ， 
刚刚 构建 的 2 次 模型 去 拟 合 安 斯 库 姆 四 重奏 的 第 3 个 数据 集 。 























完成 练习 之 后 ， 你 会 发 现 用 2 次 模型 去 拟 合 直线 是 可 能 的 。 这 个 例子 看 起 
来 似乎 验证 了 可 以 使 用 无 限 高 阶 多 项 式 去 拟 合 数据 这 一 思想 ， 但 是 通常 用 多 项 
式 去 拟 合 数据 并 不 是 最 好 的 办 法 。 为 什么 呢 ? 因 为 它 并 不 关心 具体 使 用 的 数据 








是 怎么 来 的 ， 从 原 到 








E 上 计 


















































F， 我 们 始终 可 以 找到 二 个 多 项 式 去 完美 拟 合 数据 。 如 


果 一 个 模型 完美 拟 合 了 当前 的 数据 ， 那 么 通常 对 于 没有 观测 到 的 数据 会 表现 得 




















很 糟 料 ， 原 因 是 现实 中 的 任意 数据 集 都 同时 包含 一 些 噪声 和 一 些 感 兴 趣 的 模 
式 。 一 个 过 于 复杂 的 模型 会 拟 合 噪声 ， 从 而 使 得 预测 的 结果 变 差 ， 这 称 作 过 拟 
合 ， 一 个 在 统计 学 和 机 器 学 习 中 常见 的 现象 。 越 复杂 的 模型 越 容易 导致 过 拟 
合 ， 因 而 分 析 数 据 时 ， 需 要 确保 模型 没有 产生 过 拟 合 ， 我 们 将 在 第 6 章 模型 比 








较 中 详细 讨论 。 


除了 过 拟 合 问题 





合 得 更 好 。 
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我 们 通常 更 倾向 于 更 容易 理解 的 模型 。 从 物理 意义 上 
讲 ， 线 性 模型 的 参数 要 比 3 次 模型 的 参数 更 容易 解释 ， 即 便 3 次 模型 对 数据 拟 




















4.5 ”多 元 线性 回归 
前 面 的 所 有 例子 中 ， 我 们 讨论 的 都 是 一 个 因 变量 和 一 个 自 变量 的 情况 ， 不 过 















































在 许多 例子 中 ， 我 们 的 模型 可 能 包含 多 个 自 变 量 。 例 如 : 























4.5 多 元 线性 回归 

















国 红酒 的 口感 〈《 因 变量 ) 与 酒 的 酸度 、 比 重 、 酒 精 含量 、 
含量 〈 自 变量 ) 的 关系 ; 



































甜 





度 以 及 硫酸 盐 


国 学生 的 平均 成 绩 《〈 因 变量 ) 与 家 庭 收入 、 家 到 学 校 的 距离 、 母 亲 的 受 教 








育 程度 ( 自 变 量 ) 的 关系 。 
这 种 情况 下 ， 因 变量 可 以 这 样 建 模 : 





HL=Q+PBr t+ px + Pax ttpy Xm 
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个 变量 的 多 次 方 。 








其 中 ， 是 一 个 长 度 为 m 





下 是 一 个 维度 为 nXm 的 矩阵 









































以 用 以 下 这 种 更 简洁 的 形式 描 





有 关 线 性 代数 ， 你 可 以 阅读 维 


注意 这 个 式 子 与 前 面 看 到 过 的 多 项 式 回归 的 式 子 不 一 样 
4 是 用 线性 代数 的 表示 方法 可 以 写成 更 作 





HA= 





， 现 在 有 了 多 个 变量 





a+BX 














> 








述 模型 : 


的 系数 向 量 ， 








BX= Bx,= Ba +"+p,x, 
在 一 元 线性 回归 模型 中 ， 我 们 希望 找到 一 条 直线 来 解释 数据 ， 而 在 多 元 线性 
回归 模型 中 ， 我 们 希望 找到 的 是 一 个 维度 为 m 的 超 平面 。 
































模型 本 质 上 与 一 元 线性 回归 模型 是 
而 兰 是 一 个 矩阵 。 现 在 我 们 定义 如 下 数据 : 








np.random.seed (314) 


N= 100 

alpha real = 23 

beta real = [O09 ,a9] 
eps_real = np.random.normal (0, 


X = np.array([np.random.normal (i, jJ, N) 


X mean = X.mean (axis=1, 


X centered = X - X mean 











样 的 ， 唯 一 的 区 别 是 : 





0.5, size=N) 


keepdims=True) 


y = alpha real + np.dot (beta real, X) + eps real 


然后 定义 一 个 函数 去 画 


3 个 散 点 





图 ， 前 两 个 表示 的 是 E 











也 就 是 说 ， 自 变量 的 个 数 为 m。 
其 中 ,，n 表示 观测 的 样本 数 ，m 表示 自 变量 个 数 。 


硼 洁 的 形式 : 


变量 














因此 ， 多 元 线性 








基 百 科 上 关于 向 量 点 乘 和 算 阵 乘法 的 相关 知识 ， 可 





回归 


现在 是 一 个 向 量 


fo 二 Lr EB L0G.2)3 











因 变 量 





[1, 1.5])] 


的 关 
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系 ， 最 后 一 个 表示 的 是 两 个 自 变 量 之 间 的 关系 。 这 只 是 个 普通 的 绘图 函数 ， 本 章 
后 面 将 会 反复 用 到 。 

















def scatter plot (x, y): 
plt.figure (figsize=(10, 10)) 
FoE Tdx RT 计生 Onimerate (cx): 
lt eubeLot (ZZ 2 ,189+t1) 
pltagcatter (x i; Y) 
plt.xlabel('$x {}$'.format (idx), fontsize=16) 
plt.ylabel('$y$', rotation=0, fontsize=16) 


Blt.subplot(2, 2; idx+2) 

lt Seatter(cLl0j [1L)) 
plt.xlabel ('$x {}$'.format (idx-1), fontsize=16) 
plt.ylabel ('$x {}$'.format (idx), rotation=0, fontsize=16) 


前面 刚刚 定义 的 scatter_plot 可 以 将 我 们 的 合成 数据 可 视 化 地 表示 出 来 。 
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scatter plot (X_centered，Y) 
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现在 用 PyMC3 针对 多 变量 线性 回归 问题 定义 出 一 个 合适 的 模型 ， 代 码 部 分 





4.5 多 元 线性 回归 


与 单 变量 线性 回归 的 代码 基本 一 致 ， 唯 一 的 区 别 是: 








图 参数 beta 是 高 斯 分 布 ， 大 小 为 2， 每 个 参数 都 有 一 个 斜率 ; 
加 这 里 使 用 pm.matnh.dot() 来 定义 变量 mu， 也 就 是 前 面 提 到 的 线性 代 
数 中 的 点 乘 〈 或 者 矩阵 相 乘 ) 。 


如 果 你 对 NumPy 比较 熟悉 ， 那 么 你 应 该 知道 NumPy 包含 一 个 点 乘 函 数 ， 而 























且 Python 3.5〈 以 及 NumPy 1.10) 之 后 增加 了 一 个 新 的 操作 符 @。 不 过 这 里 我 们 
使 用 的 是 PyMC3 中 的 点 乘 函 数 〈 其 实 是 Theano 中 和 矩阵 相 乘 的 一 个 别名 ) ， 因 为 
变量 beta 在 这 里 是 一 个 Theano 中 的 张 量 而 不 是 NumPy 数组 。 


Frequency Frequency 


Frequency 








with pm.Model() as model mlr: 
alpha tmp = pm.Normal('alpha tmp', mu=0, sd=10) 
beta = pm.Normal ('beta', mu=0, sd=1, shape=2) 
epsilon = pm.HalfCauchy('epsilon', 5) 


mu = alpha tmp + pm.math.dot (beta, X centered) 

alpha = pm.Deterministic('alpha', alpha tmp - pm.math.dot (beta, X mean)) 
y_pred = pm.Normal ('y pred', mu=mu, sd=epsilon, observed=y) 

start = pm.tind MAP () 

step = pm.NUTS (scaling=start) 

trace mlr = pm.sample(5000, step=step, start=start) 


varnames = ['alpha', 'beta', 'epsilon'] 
pm.traceplot (trace mlr, varnames) 
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现在 看 一 下 推断 出 来 的 参数 的 总 结 ， 这 样 分 析 结 果 会 更 容易 一 些 。 我 们 的 模 

































































型 表现 如 何 呢 ? 

pm.dqf summary (trace mlr, varnames) 

mean sd mce_error hpd 2.5 hpd 97.5 

alpha 0 2.07 0.50 5.96e-03 1.10 3.09 
beta 0 0.95 0.05 6.04e-04 0.85 1.05 
beta 1 1.48 0.03 4.30e-04 1.43 1.54 
epsilon 0.47 0.03 4.63e-04 0.41 0.54 

可 以 看 到 ， 模 型 能 够 重 现 正确 的 值 (对比 生成 数据 用 的 值 )。 接 下 来 ， 我 





















































们 将 重点 关注 在 分 析 多 变量 线性 回归 模型 中 需要 注意 的 点 ， 
。 这 里 需要 特别 提醒 的 是 : 每 个 参数 只 有 在 整体 考虑 了 其 他 参数 的 情况 下 才 
义 























4.5.1 混淆 变量 和 多 余 变 量 























特别 是 对 斜率 的 解 

















设想 这 样 一 种 情况 ， 有 一 个 变量 z 与 预测 变量 x 相关， 同时 还 与 男 一 个 被 预 
测 的 变量 y 相关 。 假 设 z 对 x 和 y 都 有 影响 ， 例 如 ，z 可 以 是 工业 革命 (一 个 相 
当 复 杂 的 变量 ), x 是 海盗 的 数量 ,y 是 二 氧化 矶 浓度 。 如 果 在 分 析 中 将 < 去 掉 ， 









































我 们 会 得 出 结论 : x 与 y 之 间 有 着 完美 的 线性 相关 性 ， 我 们 甚至 可 以 通过 x 预测 





不 过 ， 如 果 我 们 关注 的 重点 是 如 何 缓解 全 球 变 暖 问题 ， 那 么 


























发 生 了 什么 以 及 其 内 在 机 制 是 什么 。 记 住 ， 前 面 已 经 讨论 了 相关 性 






































yo 
可 能 完全 没 搞 清 到 底 
EF 并 不 意味 着 因 


果 关 系 ， 原 因 是 我 们 可 能 在 分 析 过 程 中 忽略 了 变量 z。 这 种 情况 下 ，z 称 作 混淆 
变量 ， 或 者 是 混淆 因素 。 问 题 是 在 很 多 情况 下 ，z 很 容易 被 忽略 。 也 许 是 因为 我 
们 压根 没有 测量 z， 或 者 是 因为 没有 包含 在 传 给 我 们 的 数据 集中 ， 又 或 者 是 因为 






























































我 们 压根 没 想 到 它 可 能 与 我 们 的 问题 有 联系 。 没 有 考虑 到 混淆 变量 








可 能 会 导致 我 


们 的 分 析 得 出 奇怪 的 相关 性 ， 在 解释 数据 和 做 预测 (有 时 候 我 们 不 关心 内 在 的 机 





























制 ) 的 时 候 ， 这 可 能 是 个 问题 。 理 解 底层 的 机 制 有 利于 将 学 到 的 东 



































迁移 到 新 的 


场景 中 ， 相 反 ， 盲 目的 预测 很 难 迁移 。 例 如 ， 帆 布鞋 产量 可 以 作为 一 个 国家 经 济 




















实力 的 易 测 指标 ， 不 过 对 于 生产 链 不 同 或 者 文化 背景 不 同 的 
个 糟糕 的 指标 。 


国家 而 言 ， 这 可 能 是 
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4.5 ”多 元 线性 回归 











我 们 将 使 用 合成 数据 来 探索 混淆 变量 的 问题 。 下 面 的 代码 中 模拟 了 一 个 混淆 
变量 x!,， 注 意 这 个 变量 是 如 何 影响 x, 和 yy 的 。 

















= 100 
_1 = np.random.normal (size=N) 
2= x 1 + np.random.normal (size=N, scale=1) 


= x 1 + np.random.normal (size=N) 


= np.vstack( (x 1, x 2)) 

根据 生成 数据 的 方式 ， 可 以 看 出 这 些 变 量 已 经 是 中 心 化 了 。 因 此 ， 不 需要 再 
进一步 对 数据 进行 中 心 化 处 理 来 加 速 推断 过 程 了 。 事 实 上 这 个 例子 中 的 数据 已 经 
是 标准 化 的 了 。 























scatter plot (X，Y) 
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然后 用 PyMC3 创建 模型 并 从 中 有 采样， 现在， 你 对 这 个 模型 应 该 已 经 相当 熟 











with pm.Model() as model red: 
alpha = pm.Normal('alpha', mu=0, sd=10) 
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beta = pm.Normal ('beta', mu=0, sd=10, shape=2) 
epsilon = pm.HalfCauchy('epsilon', 5) 


mu = alpha + pm.math.dot (beta, X) 


y_pred = pm.Normal ('y pred', mu=mu, sd=epsilon, observed=y) 


start = pm.tind MAP () 
step = pm.NUTS (scaling=start) 


trace red = pm.sample(5000, step=step, start=start) 


alpha 


Frequency 


-04-03 -02 -01 00 0.1 


beta 


Frequency 


02 03 04 0.5 


\ 


alpha 


Sample value 


Sample value 





2000 3000 4000 5000 















































5 epsilon | epsilon 
3 ] 
由 4 Et 
污 3 vo 14 
3 2 &10 
上 0 
0 2 好 
0.7 0.8 09 10 11 1 2 1.3 1.4 0 i000 2000 3000 4000 5000 
现在 用 pandas 中 的 dataframe 将 结果 的 总 结 打印 出 来 ， 重 点 关注 beta 参数 的 
均值 。 
pm.df_summary (trace red) 
mean sd mce_error hpd 2.5 hpd 97.5 
alpha 0.01 0.10 1.59e-03 -0.20 0.19 
beta 0 0.96 0.16 3.13e-03 0.67 1:29 
beta_1 -0.05 0.10 2.06e-03 -0.24 0.14 
epsilon 1.00e+00 0.07 1.15e-03 0.87 lS 
可 以 看 到 pi 接近 0， 这 意味 着 对 来 说 几乎 没有 作用 。 因 为 通过 检查 合 


成 的 数据 已 经 知道 了 起 重要 作 月 























的 是 变量 x1。 现 在 需要 先 做 一 些 测试 ， 重 跑 两 次 


模型 ， 其 中 一 次 只 用 x， 男 一 次 只 用 x,。 如 果 你 查看 下 代码 的 话 ， 可 以 看 到 有 几 
行 是 被 注释 了 的 ， 你 或 许 会 用 得 上 。 请 问 ， 这 3 种 情况 下 beta 系数 的 均值 有 多 





4.5 多 元 线性 回归 





大 区 别 ? 如 果 你 做 了 实验 ， 就 会 注意 到 ， 对 于 B, 的 值 ， 多 元 线性 回归 模型 中 得 
到 的 要 比 一 元 线性 回归 模型 得 到 的 更 低 。 换 名 话说 ， 当 xz 加 入 到 模型 中 之 后 ，x 
对 模型 的 解释 性 降低 了 甚至 降 为 0)。 
































4.5.2 多重 共 线性 或 相关 性 太 高 

前 面 的 例子 中 ， 我 们 看 到 了 多 元 线性 回归 模型 是 如 何 处 理 元 余 变量 的 ， 同 时 
还 了 解 了 混淆 变量 的 重要 性 。 接 下 来 我 们 沿 着 前 面 的 例子 继续 深入 学 习 当 两 个 变 
量 高 度 相 关 时 会 发 生 什 么 。 为 了 研究 这 个 问题 及 其 对 推断 的 影响 ， 我 们 使 用 和 前 
面 一 样 的 合成 数据 和 模型 ， 不 过 通过 减 小 根据 xi 生成 x, 时 的 随机 噪声 ， 增 加 了 
x 和 x 之 间 的 相关 性 : 



























































2 = x 1 +np.random.normal (size=N, scale=0.01) 
面 这 行 代码 相当 于 对 x 增加 了 一 个 很 小 的 扰动 ， 因 而 得 到 的 两 个 变量 可 
以 看 作 是 一 样 的 ， 然 后 你 可 以 修改 下 数据 的 尺度 并 引入 少量 的 极限 值 ， 不 过 ， 当 
下 我 们 尽量 保持 简单 。 生 成 新 的 数据 后 ， 可 以 用 散 点 图 查看 下 数据 是 什么 样 的 ; 
你 应 该 可 以 看 到 x 与 x 之 间 的 关系 是 一 条 斜率 接近 于 1 的 直线 。 运 行 模型 并 对 
结果 进行 检查 。 在 本 书 附带 的 代码 中 ， 你 可 以 看 到 有 几 行 代码 可 以 根据 beta 系 
数 画 2D 的 核 密 度 估计 图 。 你 应 该 可 以 看 到 与 下 面 类 似 的 图 。 
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beta 参数 的 HPD 区 间 相 当 广 ， 与 先 验 几 乎 一 样 。 


95% Credible Intervals 
E 


beta[1] ED 


5 10 15 
可 以 看 到 ，beta 的 后 验 是 一 条 很 窗 的 斜 对 角 线 守 当 其 中 一 个 beta 参数 增加 
时 ， 另 一 个 一 定 下 降 。 两 个 参数 非常 相关 ， 这 是 模型 和 数据 共同 作用 的 结果 。 根 
据 我 们 的 模型 ， 均 值 j 有 如 下 形式 : 
LH=Q+Pa tp x 
假设 x 和 wx, 不 只 是 近似 相同 ， 而 是 完全 一 样 的 ， 那 么 可 以 将 模型 改写 成 如 
下 形式 : 







































































LH=a+(Pi+p,) x 


可 以 看 到 ， 对 jw 有 影响 的 是 Bi 与 Bp, 的 和 而 不 是 二 者 单独 的 值 ， 因 而 模 
型 是 不 确定 的 (或 者 说 ， 数 据 并 不 能 决定 Bl 和 8B, 的 值 )。 在 我 们 的 例子 中 ， 
beta 并 不 能 在 区 间 [- se , se ] 内 自由 移动 ， 原因 有 两 个 : 其 一 ， 两 个 变量 几 
乎 是 相同 的 ， 不 过 并 非 完全 一 样 ; 其 二 ， 更 重要 的 是 beta 系数 的 可 能 取 值 受 
到 先 验 的 限制 。 


这 个 例子 中 有 几 点 需要 注意 。 首 先 ， 后 验 只 是 根据 模型 和 数据 得 出 的 逻 
辑 上 的 结果 ， 因 而 得 出 一 个 分 布 很 广 的 beta 分 布 并 没有 错 ， 事 实 就 是 这 样子 ; 
第 2 点 是 ， 我 们 可 以 依据 该 模型 做 预测 ， 可 以 尝试 做 一 些 后 验 预 测 检查 ， 该 
模型 预测 得 到 的 值 与 数据 分 布 是 一 致 的 ， 也 就 是 说 模型 对 数据 拟 合 得 很 好 ; 





















































































































































第 3 点 是 ， 对 于 理解 问题 而 言 
是 从 模型 中 去 掉 一 个 参数 ， 这 检 





解释 。 


























这 可 能 不 是 一 个 很 好 的 模型 ， 更 好 的 做 法 
模型 的 预测 能 力 与 以 前 一 样 ， 但 是 更 容易 


4.5 多 元 线性 回归 











在 任何 真实 的 数据 集中 ， 相 关 性 在 某 种 程度 上 是 普遍 存在 的 。 那 么 两 个 或 





多 个 变量 之 间 相 关 性 多 高 时 会 导致 问题 呢 ? 寻 















































成 对 变量 之 间 的 相关 性 并 不 太 重 要 ， 重 要 的 是 在 某 个 具体 模型 中 变量 的 相关 性 。 




















有 实 上 并 没有 确切 的 数值 。 我 们 可 
以 在 运行 贝 叶 斯 模型 之 前 ， 构 建 一 个 相关 性 矩阵 ， 对 其 中 相关 性 较 高 《比如 说 高 
于 0.9) 的 变量 进行 检查 。 不 过 ， 这 种 做 法 的 问题 是 :根据 相关 性 矩阵 观察 到 的 


















































前 面 已 经 看 到 了 ， 不 同 变量 在 单独 情况 下 的 表现 与 在 模型 中 放 一 起 的 表现 是 不 同 
的 。 在 多 元 回归 模型 中 ， 两 个 或 多 个 变量 之 间 的 相关 性 可 能 会 受到 其 他 变量 的 影 
降低 或 者 升 高 。 通 常 ， 建 议 在 迭代 式 构建 模型 的 





响 ， 从 而 使 得 他 们 之 间 的 相关 怕 
同时 加 入 一 些 诊断 (比如 检查 


与 数据 。 























自 相 关 性 和 后 验 )， 这 有 利于 发 现 问题 和 理解 模型 


如 果 发 现 了 高 度 相 关 的 变量 应 该 怎么 做 呢 ? 


国 如 果 相 关 性 非常 高 ， 
























































我 们 可 以 从 分 析 中 将 其 中 一 个 变量 去 掉 。 如 果 两 个 

















变量 的 信息 都 差不多 ， 有 具体 去 掉 哪 个 并 不 重要 ， 可 以 视 方 便 程度 〈 比 如 

















去 掉 最 不 常见 的 或 者 最 难 解释 或 测量 的 变量 ) 。 


国 另外 一 种 可 行 的 做 法 是 构建 一 个 新 





的 变量 对 元 余 变 量 求 均 值 。 更 高 级 的 


做 法 是 使 用 一 些 降 维 算 法 ， 如 主 成 分 分 析 法 (PCA) 。 不 过 PCA 的 一 个 





问题 是 得 到 的 结果 变量 


性 造成 模糊 。 





国 还 有 一 种 办 法 是 给 变量 























是 原始 变量 的 线性 组 合 ， 通 常会 对 结果 的 可 解释 





可 能 的 取 值 设置 
































个 较 强 的 先 验 。 在 第 6 章 中 我 





们 会 简要 讨论 如 何 选择 这 类 先 验 〈 通 常 称 作 正 则 先 验 ) 。 


4.5.3 ”隐藏 的 有 效 变量 
过 的 类 似 ， 甚 中 某 个 变量 与 预测 变量 正 相 关 而 另外 一 个 














有 一 种 情况 与 前 面 见 
与 预测 变量 负 相 关 。 这 里 


N= 100 
r= 0.8 














用 
2 























构建 





























x 0 = np.random.normal (size=N) 


些 玩具 数据 来 说 明 。 
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x 1 = np.random.normal (loc=x 0 * r, scale=(1] - 工 ## 2) ** 0.5) 
y = np.random.normal (loc=x 0 - x 1) 
X= np.vstack((x 0, x 1)) 

scatter plot (xX, y) 


5 3 
4 . 4 . 
3 3 
2 ”。 .Ss 2 | 
© Vo 9 . en%® . 
ee a Tl i 
0 友 攻 二 管 ji 0 Bt 和 4 人 
村 a 2 : _] . a . | 
. 二 9 © . . ?0 w 
-2 S — .© ® 人 -2 外 - we ee 
. . [9 
3 | . 3 . . 
-4 -4 
-3 -2 -lI 0 1 2 3 -4 -3 -2 -1 0 1 2 
Xo Xl 
3 
. 
2 Sp 
站 . o_ 
| ee 
ee Pe 
0 一 一 -一 
XI 和 a 
-1 * 十- 
机 
-2 a 
2 . 
2 1 0 1 2 3 
Xn 


with pm.Model() as model ma: 
alpha = pm.Normal('alpha', mu=0, sd=10) 
beta = pm.Normal ('beta', mu=0, sd=10, shape=2) 
epsilon = pm.HalfCauchy('epsilon', 5) 


mu = alpha + pm.math.dot (beta, XxX) 

y_pred = pm.Normal ('y pred', mu=mu, sd=epsilon, observed=y) 
start = pm.tind MAP () 

step = pm.NUTS (scaling=start) 


trace ma = pm.sample(5000, step=step, start=start) 
pm.traceplot (trace ma) 





4.5 多 元 线性 回归 


alpha alpha 


Frequency 
Sample value 


04 -03 -02 -01 00 01 02 03 04 
beta 


Frequency 
Som=D Ny 


二 noumOS 
Sample value 
[i a | 


0 -5 -10 05 0 05 10 15 ‘20 “0 1000 2000 3000 4000 5000 


EE 


Frequency 
OD HED 
Sample value 
Oa 
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0.9 1.0 1 Re 13 1.4 0 1000 2000 3000 4000 5000 
pm.forestplot (trace ma, varnames=['beta']) 


95% Credible Intervals 


beta[1] 


"13 = “5 


从 后 验 可 以 看 出 ，beta 的 值 接近 1 和 -1。 也 就 是 说 ,x 与 》 正 相关 而 闻 与 y 
负 相 关 。 现 在 重新 分 析 ， 不 过 〈 也 许 你 已 经 猜 到 了 ) 这 一 次 我 们 对 每 个 单独 的 变 

+ 进行 分 析 。 

对 于 单个 的 变量 ， 可 以 看 到 有 接近 0， 也 就 是 说 每 个 单独 变量 x 都 不 足以 预 
测 y?。 相 反 ， 如 果 我 们 将 x 组 合 在 一 起 后 就 可 以 预测 y?。 当 xz 增加 时 % 也 增加 ， 
而 当 总 增加 时 也 降低 ， 因 此 如 果 单独 看 变量 x 而 忽略 的话， 我 们 会 看 到 当 
za 增加 的 时 候 ， ?几乎 不 增加 ， 而 当 a 增加 时 ，? 几乎 不 降低 。 因 变量 之 间 具 有 


之 
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0.5 1.0 
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相关 性 ， 每 个 因 变 量 都 有 反作用 ， 因 而 忽略 其 中 任何 一 个 都 会 造成 对 变量 影响 力 








的 低估 。 


4.5.4 增加 相互 作用 
目前 为 止 ， 所 有 多 元 回归 模型 的 定义 中 ， 在 其 他 预测 变量 田 








定 的 条 























的 变化 都 会 ( 隐 式 地 ) 带 来 py 的 稳定 变化 。 不 过 这 显然 并 非 一 定 的 ， 





























件 下 ， Xl 


可 能 











变 台 之 后 ， 原 来 》 与 罗 之 间 的 关系 发 生 了 改变 。 一 个 经 典 的 例子 是 药物 之 间 的 
时 ， 增 加 药物 A 
的 剂量 有 正 向 影响 ， 而 当 增加 药物 B 的 剂量 时 ， 药 物 A 反而 有 负 向 〈 甚 至 致 全 




















相互 作用 ， 例 如 ， 在 没有 使 用 药物 B〈 或 者 药物 B 的 剂量 较 低 ) 
































的 ) 影响 。 
































目前 见 过 的 所 有 例子 中 ， 因 变量 对 于 预测 变量 的 作用 都 是 受 加 的 。 



































像 前 面 的 药物 例子 一 样 ， 我 们 需要 给 模型 增加 一 项 非 受 加 的 量 ， 
的 乘积 











LU=Q+PBix + Poxo tp3x1x 


只 是 增加 变量 (每 个 变量 乘 以 一 个 系数 )。 如 果 我 们 希望 捕捉 到 变量 





比如 党 

















注意 这 里 系数 8; 乘 的 是 和 x 的 乘积 ， 这 个 非 琶 加 项 只 是 一 





外 

















计 和 学 中 的 变量 之 间 相 互 作 用 的 例子 ， 因 为 它 衡量 了 变量 (在 前 本 

















的 例 






































的 。 





在 多 元 线性 回归 模型 中 ， 如 果 没 有 变量 之 间 的 乘积 ， 我 们 得 到 的 是 一 个 超 3 


























物 ) 之 间 的 相关 性 。 对 相关 性 建 模 的 表达 式 有 很 多 种 ， 相 乘 只 是 其 











我 们 做 的 


的 效果 ， 就 


变量 之 间 





j 来 说 明 统 


子 中 是 药 


P 一 个 比较 常 


Ml 





面 ， 也 就 是 说 ， 一 个 平坦 的 超 曲 面 ， 加 入 乘积 之 后 ， 该 超 曲 面 会 变 得 弯曲 。 














4.6 glm 模块 























在 统计 学 和 机 器 学 习 中 ， 线 性 模型 有 着 广泛 的 应 用 ，PyMC3 有 一 个 叫做 
glm 的 模块 ， 也 就 是 通用 线性 模块 (generalized linear model)。 一 个 线性 模型 可 









































以 这 么 表示 : 


with Model() as model: 
ylm glm('y ~ xX'y data) 





4.8 ”深入 阅读 


trace = sample (2000) 
代码 中 的 第 2 行 会 默认 给 截 距 和 和 斜率 添加 均匀 先 验 ， 同 时 给 因 变 量 添加 一 个 
高 斯 似 然 。 如 果 你 只 是 想 跑 一 个 默认 的 线性 回归 问题 ， 这 样 就 可 以 了 ， 需 要 注意 
这 个 模型 的 MAP 在 本 质 上 跟 使 用 普通 的 (频率 学 派 中 的 ) 最 小 二 乘法 得 到 的 结 
果 是 一 样 的 。 如 果 需 要 ， 你 可 以 使 用 glm 模块 并 修改 其 中 的 先 验 和 似 然 。 如 果 你 
对 R 语言 的 语法 不 熟 ， 需 要 说 明 一 下 ， 这 里 y ~ x 的 意思 是 用 glm 模块 中 的 线 
性 函数 定义 了 输出 变量 y。 在 glm 模块 中 还 包含 一 个 函数 用 来 画 后 验 预测 的 图 。 




































































4.7 总 结 

线性 回归 是 统计 学 和 机 器 学 习 中 最 常用 的 模型 之 一 ， 同 时 也 是 构建 其 他 更 复 
杂 模 型 的 基石 ， 其 应 用 相当 广泛 ， 不 同 领域 的 人 对 同一 个 东西 有 不 同 的 称呼 ， 
此 本 章 一 开始 先 介 绍 了 统计 学 和 机 器 学 习 中 的 一 些 常 见 词汇 。 然 后 深入 研究 了 线 
性 模型 的 核心 ， 用 一 个 表达 式 衔 接 了 输入 变量 与 输出 变量 。 本 章 用 到 的 是 高 斯 分 
布 和 t 分 布 作为 因 变 量 的 似 然 ， 后 面 我 们 会 将 该 模型 扩展 到 其 他 分 布 。 我 们 还 处 
理 了 一 些 计 算 方面 的 问题 ， 以 及 如 何 通过 中 心 化 和 《或 ) 标准 化 数据 解决 问题 ， 
还 有 幸 见 识 到 了 NUTS 相 比 Metropolis 的 优势 。 


在 一 元 线性 模型 中 ， 我 们 应 用 了 多 层 模型 ， 同 时 探讨 了 如 何 使 用 多 项 式 回 
拟 合 曲线 以 及 这 类 模型 的 一 些 问 题 。 此 外 ， 还 讨论 了 如 何 用 多 个 参数 构建 线性 
归 模 型 ， 解 释 线性 模型 中 的 一 些 注意 事项 ， 下 一 章 我 们 将 学 习 如 何 扩展 线性 回归 
模型 并 用 于 分 类 问题 。 
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4.8 深入 阅读 

《Statistical Rethinking》 中 的 第 4 章 和 第 5 章 。 

《Doing Bayesian Data Analysis, Second Edition》 中 的 第 17 章 和 第 18 章 。 
《An Introduction to Statistical Learning》 中 的 第 4 章 。 

《Bayesian Data Analysis, Third Edition》 中 的 第 14 章 一 第 17 章 。 
《Machine Learning: A probabilistic Probabilistic Perspective》 中 的 第 7 章 。 
《Data Analysis Using Regression and Multilevel/Hierarchical Models》 一 书 。 
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4.9 练习 

(1) 选 一 个 你 觉得 有 意思 的 数据 集 并 用 一 元 线性 回归 去 拟 合 。 用 不 同 的 方 
法 重 跑 一 遍 ， 重 新 画图 并 计算 出 皮尔 逊 相关 系数 。 如 果 没 有 合适 的 数据 ， 可 以 上 
网 找 一 下 ， 网 址 为 : http://data.worldbank.org/ 或 者 http://wwwi.stat.ufl.edu/~winner/ 
datasets.html。 





























(2) 阅读 并 运行 PyMC3 官方 文档 中 的 例子 https://pymce-devs.github.io/pyme3/ 
notebooks/LKJ.html。 


(3) 对 于 没有 进行 池 化 操作 的 模型 ， 尝 试 修改 beta 先 验 中 sq 的 值 ( 比 如 1 和 
100)， 观 察 每 组 数据 中 预 估 和 斜率 值 的 变化 ， 哪 组 数据 更 容易 受到 该 变化 的 影响 ? 
(4) 查看 本 书 附带 的 代码 model t2〔 以 及 附带 的 数据 )， 尝 试 更 换 nu 的 


先 验 ， 比 如 非 漂 移 的 指数 先 验 和 伽 马 先 验 〈 代 码 中 已 经 注释 掉 了 )。 画 出 先 验 并 
确保 你 理解 了 《一 个 简单 的 做 法 是 将 似 然 注释 掉 并 运行 traceplot 函数 )。 

(5) 降低 ADVI 的 迭代 次 数 ( 目 前 是 100000) ,7 例如 降 到 10000， 对 NUTS 每 
秒 迭 代 次 数 有 什么 影响 ? 观察 traceplot 的 返回 结果 ;< 看 看 对 采样 值 有 什么 影响 。 
将 ADVI 换 成 前 面 其 他 模型 用 过 的 find_MAP () ”能 否 观 察 到 这 样 做 的 优势 

(6) 运行 model _mlr 的 例子 ， 不 过 这 次 不 对 数据 进行 中 心 化 处 理 。 比 较 两 
种 情况 下 alpha 参数 的 不 确定 性 。 你 能 对 结果 做 出 些 解释 吗 ? 提示 : 回忆 一 下 参 
数 alpha 的 定义 ( 截 距 )。 

(7) 阅读 并 运行 以 下 PyMC3 文档 中 的 记事 本 : 

国 https://pymc-devs.github.io/pymc3/notebooks/GLM-linear.html 
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国 https://pymc-devs.github.io/pymc3/notebooks/GLM-robust.html 
加 https://pymc-devs.github.io/pymc3/notebooks/GLM-hierarchical.html 


(8) 运行 多 元 线性 回归 模型 部 分 的 练习 。 

















| > 


利用 旭 和 辑 回 归 对 结 采 进行 分 类 


上 一 章 中 ， 我 们 学 习 了 线性 回归 模型 的 核心 内 容 ， 在 这 类 模型 中 ， 我 们 假设 
被 预测 的 变量 是 定量 的 (连续 变量 )。 这 一 章 我 们 将 学 习 如 何 处 理 定性 的 变量 (或 
者 称 为 类 别 变 量 )， 比 如 颜色 、 性 别 、 生 物种 类 、 政 党 等 。 
看 作 是 定性 的 又 可 以 看 作 是 定量 的 ， 比 如 红色 和 绿色 ， 如 果 单 看 名 字 ， 它 们 是 定 
性 的 ， 如 果 从 它们 的 波长 来 看 ， 又 是 定量 的 (分 别 为 650nm 和 510nm)。 处 理 类 
型 变量 时 一 个 常见 的 问题 是 对 于 某 个 观测 值 赋予 类 别 标签 ， 
题 。 分 类 问题 属于 有 监督 问题 ， 因 为 我 们 已 经 有 一 些 分 类 好 的 样本 ， 只 需要 对 新 










































































注意 有 些 变量 既 可 以 





























这 类 问题 称 为 分 类 问 











的 样本 预测 其 正确 的 类 别 ， 同 时 学 习 模 型 的 参数 用 于 描述 特征 到 类 别 之 间 的 映射 





关系 。 

本 章 将 会 讨论 以 下 内 容 : 
逻辑 回归 和 首 连 结 函 数 ，; 
一 元 逻辑 回归 ; 
多 元 逻辑 回归 ; 
softmax 函数 和 多 项 逻辑 回归 。 











5.1 逻辑 回归 



































我 母亲 有 一 道 拿 手 好 菜 叫 sopa seca， 其 做 法 源 于 意大利 面 ， 直 译 过 来 叫做 





干 汤面 ， 这 个 名 字 上 听 起 来 似乎 有 点 矛盾 ， 不 过 一 旦 了 解 它 的 做 法 之 后 ， 你 会 觉 




















得 这 个 叫 法 其 实 挺 合理 的 。 同 样 ， 逻 辑 回 归 也 是 如 此 ， 它 
题 。 逻 辑 回 归 模 型 是 线性 回归 模型 的 一 种 扩展 ， 这 也 是 其 
何 将 一 个 回归 模型 应 用 于 分 类 问题 之 前 ， 先 ; 














形式 : 





主要 用 来 解决 分 类 问 

















各 线性 模型 的 


名 称 来 源 。 在 理解 如 
核心 部 分 改写 成 如 下 
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1=f(a+pBX) 
其 中 , / 称 作 逆 连 结 函数 。 为 什么 这 里 把 f 称 














乍 逆 连结 函数 而 不 是 连结 





函数 ? 原因 是 传统 上 人 们 认为 此 类 函数 是 用 来 连结 输出 变量 和 线性 模型 的 ， 

















不 过 在 构建 贝 叶 斯 模型 的 时 候 你 将 看 到 ， 反 过 来 

















思考 可 能 更 容易 一 些 。 因 





此 ， 为 了 避免 疑惑 ， 我 们 这 里 统称 道 连结 函数 。 前 一 章 中 的 所 有 线性 模型 其 
实 都 包含 一 个 逆 连 结 函数 ， 不 过 我 们 书写 的 时 候 将 其 省 略 了 ， 因 为 它 其 实 








一 个 恒 等 函 数 ( 函 数 的 返回 值 和 输入 值 相 同 )。 重 
用 ， 不 过 它 可 以 让 我 们 用 一 种 更 一 般 的 形式 思考 不 同 的 模型 。 从 原理 上 讲 



































日 
候 
等 函数 在 这 里 也 许 没 什么 














许多 其 他 函数 都 可 以 充当 逆 连 结 函 数 ， 不 过 这 一 章 只 讨论 逻辑 函数 ， 其 数学 


形式 如 下 : 
1 


lopgisfic(z) = 一 一 一 一 一 
Re 1+exp(-2) 








从 分 类 的 角度 来 看 ， 逻 辑 函 数 最 重要 的 特点 之 一 是 不 论 参 数 z 的 值 为 多 少 ， 
其 输出 值 总 是 介 于 0 到 1 之 间 。 因 此 ， 该 函数 将 整个 实 轴 压缩 到 了 区 间 [0,1] 内 。 





















































逻辑 函数 也 称 作 S 型 函数 (sigmoid function), “因为 它 的 形状 看 起 来 像 S， 可 以 








运行 以 下 几 行 代码 来 看 一 下 。 














z= np.linspace(-10, 10, 100) 

logistic =1/ (1 + np.exp(-z) 
Plt.plot (zr lO0gistic) 

plt.xlabel('$z$', fontsize=18) 
plt.ylabel('$logistic(z)$', fontsize=18) 
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5.1.1 逻辑 回归 模型 


现在 我 们 知道 逻辑 函 
分 类 。 先 从 简单 的 问 





数 长 什么 





5.1 逻辑 回归 

















样 了 ， 接 下 来 将 继续 学 习 如 何 用 来 对 结果 进行 














题 开 始 ， 假 设 类 别 只 有 两 类 ， 比 如 正常 邮件 /垃圾 邮件 、 安 


全 /不 安全 、 阴 天 /上 晴天、 健康 /生病 等 。 首 先 对 类 别 进行 编码 ， 假 设 变 量 了 只 



































两 个 值 ，0 或 1， 也 就 是 说 ye {0,1}。 这 样 描述 之 后 ， 问 题 就 有 点 像 抛 硬币 问 

















题 了 ， 在 那个 例子 中 我 








们 用 到 了 但 













































































努 利 分 布 作为 似 然 。 这 里 的 区 别 是 : 现在 9 不 


再 是 从 一 个 beta 分 布 中 生成 的 ， 而 是 由 一 个 线性 模型 定义 的 。 一 个 线性 模型 可 
以 返回 实 轴 上 的 任意 值 ， 但 是 伯 努 利 分 布 的 值 限定 在 [0,1] 区 间 内 。 因 此 我 们 使 
用 了 一 个 逆 连 结 函 数 将 线性 模型 的 返回 值 映 射 到 一 个 适合 伯 努 利 分 布 的 区 间 内 ， 






























































从 而 将 一 个 线性 回归 模型 转换 成 了 分 类 模型 : 


下 面 的 Kruschke 图 显示 了 逻辑 


0= 





logistic(a + PBX) 
y~ Bern(O) 











回归 模型 (应 该 ) 包含 的 先 验 。 注 意 与 单 参数 

















线性 回归 模型 的 区 别 是 : 























这 里 用 到 











并 使 用 了 好 辑 函 数 生成 


区 间 [0,1] 范围 











伯 努 利 分 布 而 不 是 高 斯 分 布 ( 或 者 t 分 布 )， 
围 内 的 参数 0， 从 而 适 于 输入 到 伯 努 利 分 布 。 
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5.1.2 ” 营 尾 花 数 据 集 
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这 里 我 们 将 逻辑 回 























归 应 用 到 高 








尾 花 数据 集 上 。 在 构建 模型 之 前 ， 我 们 先 了 解 
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下 该 数据 集 。 竟 尾 花 数据 集 是 一 个 很 经 典 的 数据 集 ， 包 含有 Setosa、Versicolour 
和 Virginica 3 个 种 类 ， 这 3 个 类 别 标签 就 是 我 们 想 要 预测 的 量 ， 即 因 变 量 。 其 中 
每 个 种 类 包含 有 50 个 数据 ， 每 个 数据 包含 4 种 变量 〈 或 者 称 为 特征 ， 机 器 学 习 
中 通常 这 么 称呼 )， 这 4 种 变量 就 是 我 们 要 分 析 的 自 变 量 ， 分 别 是 : 花 流 长 度 、 
花 泊 宽度 、 花 更 长 度 和 花 莹 宽度 。 花 莹 有 点 类 似 小 叶 ， 在 花 还 是 芽 时 包围 着 花 ， 
有 保护 作用 。seaborn 中 包含 高 尾 花 数据 集 ， 我 们 可 以 用 如 下 代码 将 其 导入 成 
Pandas 里 的 Dataframe 格式 : 
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iris, =. Ss.. load dataset ("iris") 


iris.head() 




















sepal length | sepal width | petal length | petal width species 
0 5.1 3.5 1.4 0.2 setosa 
1 4.9 3.0 1.4 0.2 setosa 
2 4.7 3 汉 3 0.2 setosa 
3 4.6 3;1 1.S G2 setosa 
4 5.0 3.6 1.4 0.2 setosa 


























可 以 用 seaborn 中 的 stripplot 消 数 将 每 个 种 类 的 花 葛 长 度 画 出 来 : 





snestrioplot (x="species", y="sepal, Length “ota=iris;: Jitter=True) 
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上 图 中 y 轴 是 连续 的 ， 而 x 轴 是 离散 的 类 别 变量 ， 图 中 的 点 在 x 轴 上 
分 散 开 来 的 ， 这 并 没有 什么 实际 意义 ， 只 是 一 个 画图 的 小 技巧 而 已 ， 通 过 ; 





























英 并 






































jitter 参数 设 为 True， 能 够 避免 所 有 点 者 








5.1 逻辑 回归 


bh 重 肝 在 一 条 直线 上 ， 你 可 以 试 着 将 



































































































































jitter 参数 设 为 False。 这 里 唯一 重要 的 是 x 轴 的 含义 ， 即 分 别 代表 setosa、 
versicolour 和 virginica 3 个 类 别 。 你 还 可 以 用 seaborn 中 的 其 他 作 图 函数 来 画 
这 些 点 (比如 violin plot)， 只 需要 一 行 代码 就 能 完成 。 

另外 一 种 观察 数据 的 方法 是 用 pairplot 画 出 散 点 图 矩 阵 ， 用 该 函数 可 以 
得 到 一 个 4X4 的 网 格 〈 因 为 我 们 有 4 种 特征 )。 网 格 是 对 称 的 ， 上 三 角 和 下 三 角 
表示 的 是 同样 的 信息 。 由 于 对 角 线 上 的 散 点 图 其 实 是 变量 本 身 ， 因 此 这 里 用 一 个 
特征 的 KDE 图 代替 了 散 点 图 。 可 以 看 到 ， 每 个 子 图 中 ， 分 别 用 3 种 颜色 表示 3 











种 不 同 的 类 别 标签 ， 这 一 点 与 前 面 图 中 的 表示 一 致 。 


sns.pairplot (iris, hue='species', 
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petal_length 


和 


Fri 
a 


petal_width 


sepal length sepal width pe 


diag_ 


kind="'kde') 


ns i pa ee 
: a 
sn i Re 。 
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深入 学 习 之 前 ， 花 点 时 间 分 析 下 前 面 这 幅 图 ， 进 一 步 熟 悉 这 个 数据 集 并 了 角 
变量 与 标签 之 间 的 关系 。 








-td 
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5.1.3 ”将 逻辑 回归 模型 应 用 到 营 尾 花 数据 集 

我 们 先 从 一 个 简单 的 问题 开始 : 用 花 莹 长 度 这 一 特征 ( 自 变 量 ) 来 区 分 
setosa 和 versicolor 这 两 个 种 类 。 和 前 面 一 样 ， 这 里 用 0 和 1 对 类 别 变量 进行 编码 ， 
利用 Pandas 可 以 这 么 做 : 



























































df = iris.query(species == ('setosa', 'versicolor') 
y.0 = pd.Categorical (df ['species']) .codes 
x n = 'sepal length' 


x 0 = df[x n].values 

现在 数据 已 经 表示 成 了 合适 的 格式 ， 终 于 可 以 用 PyMC3 来 建 模 了 。 留 意 
下 面 代码 中 的 第 一 部 分 与 线性 回归 模型 的 相似 之 处 。 此 外 还 留意 两 个 确定 变 
量 : theta 和 bd。theta 是 对 变量 mu 应 用 逻辑 函数 之 后 的 值 ，bd 是 一 个 有 
边界 的 值 ， 用 于 确定 分 类 结果 ， 稍 后 会 详细 讨论 。^ 还 有 一 点 值得 提 的 是 除了 像 
下 面 这 样 明确 写 出 逻辑 函数 的 完整 形式 之 外 ,% 还 可 以 简单 地 使 用 PyMC3 中 的 
pm.math.sigmoid 函数 ， 该 函数 是 Theano 中 ‘sigmojd 函数 的 一 个 别名 。 


对 于 其 他 线性 模型 而 言 ， 将 数据 进行 中 心 化 和 《或 ) 标准 化 处 理会 有 利于 采 
样 。 不 过 ， 在 这 个 例子 中 ， 我 们 暂且 不 对 数据 做 进一步 处 理 。 
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with pm.Model() as model 0: 
alpha = pm.Normal('alpha', mu=0, sd=10) 
beta = pm.Normal ('beta', mu=0, sd=10) 


mu = alpha + pm.dot (x 0, beta) 
theta = pm.Deterministic('theta', 1 / (1 + pm.math.exp (-mu))) 
bd = pm.Deterministic('bd', -alpha/beta) 


yl = pm.Bernoulli('yl', theta, observed=y 0) 
start = pm.find MAP () 
step = pm.NUTS () 
trace 0 = pm.sample(5000, step, start) 
chain 0 = trace 0[1000:] 
varnames = ['alpha', 'beta', 'bd'] 


pm.traceplot (chain 0, varnames) 








5.1 逻辑 回归 





alpha alpha 
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pm.dqf summary (trace 0, varnames) 


常 一 样 ， 我 们 将 后 验 的 总 结 打 印 出 来 ， 然 后 将 ba 与 通过 另外 一 种 方式 
得 到 的 值 进行 比较 。 









































mean sd mce_error hpd 2.5 hpd 97.5 

alpha -23.49 4.07 1.77e-01 -31.38 -15.72 
beta 4.34 0.75 3.28e-02 2.88 $5:73 
bd 5.42 0.07 1.09e-03 人 2 55 

现在 ， 我 们 将 数据 及 拟 合 的 sigmoid (S- 型 ) 曲线 画 出 来 。 

theta = trace 0['theta'].mean(axis=0) 

idx = np.argsort (x 0) 

plt.plot(x 0lidx]l thetalidx]; color="'b"; lw=3)» 

plt.axvline(trace 0['bd'] .mean(), ymax=1, color="''"'r'') 

bd hpd = pm.hpd(trace 0['bd']) 

plt.fill betweenx([0, 1], bd hpd[0], bd hpd[1], color='r', alpha=0.5) 


i 


lt .plot( 0 057 
heta hpd = pm.hpd(trace 0['theta']) [idx] 
1t.fill between(x 0[idx], theta hpd[:,0], theta hpd[:,1], color='b', alpha=0.5) 


lt.xlabel (x_n, 
lt.ylabel (r'$\theta$', rotation=0, 


Vo Polor= "EE'} 


fontsize=16) 





fontsize=16) 
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4.0 F l . L 6.5 7.0 
sepal length 


前 面 这 张 图 表示 了 花 苯 长 度 与 花 的 种 类 (setosa = 0, versicolor =1) 之 间 的 关系 。 
蓝 色 的 S 型 曲线 表示 theta 的 均值 ， 这 条 线 可 以 解释 为 : 在 知道 花 苯 长 度 的 情况 下 




















花 的 种 类 是 versicolor 的 概率 ， 即 p(y=1/x)。 半 透明 的 蓝 色 区 间 是 95%HPD 











区 间 。 

















注意 : 在 这 种 情况 下 ， 逻 得 回归 其 实 就 是 回归 4 因为 我 们 做 的 就 是 在 给 定 特征 (或 
者 特征 的 线性 组 合 ) 的 条 件 下 ， 回 归 出 一 个 数据 点 的 类 别 为 1 的 概率 。 不 过 需要 
时 刻 注意 观察 到 的 变量 是 二 值 变量 而 推断 的 是 连续 的 概率 ， 因 此 我 们 需要 引入 一 




















个 规则 将 连续 的 概率 转换 成 一 个 0-1 结果 。 决 策 边界 在 图 中 用 红色 来 表示 ， 

















此 外 


还 有 一 个 95%HPD 区 间 。 根 据 决策 边界 ，x 值 位 于 其 左 侧 的 (这 里 对 应 花 莹 长 度 ) 
属于 类 别 0 (setosa)， 而 位 于 其 右 侧 的 属于 类 别 1 (versicolor)。 决 策 边界 在 x 轴 上 











[24 
的 取 值 为 对 应 y=0.5 时 的 点 ， 可 以 证 明 其 结果 是 “8， 推 导 过 程 如 下 。 
根据 模型 的 定义 ， 我 们 有 如 下 关系 : 
OO=/ogistic (a + PX) 
根据 逻辑 函数 的 定义 ， 当 9=0.5 时 ， 对 应 的 输入 为 0， 则 有 : 
0.5= logistic (a + px) SO0=a+px, 


移 项 后 可 以 得 出 ， 当 g =0.5 时， 对 应 有 : 


(24 
XxX. 三 一 一 


Bp 















































值得 一 提 的 是 : 决策 边界 是 一 个 标量 ， 也 就 是 说 是 一 个 数值 ， 这 一 点 对 于 
一 维 数据 来 说 是 合理 的 。 因 此 我 们 只 需要 一 个 标量 就 可 以 将 数据 分 成 两 组 (或 者 

















5.2 多 元 逻辑 回归 























两 类 )。 很 重要 的 一 点 是 : 尽管 决策 边界 看 起 来 很 合理 ， 但 是 这 里 选取 的 0.5 3 
不 是 什么 特殊 值 ， 你 完全 可 以 选 其 他 0 到 1 之 间 的 值 。 只 有 当 我 们 认为 将 标签 0 
(setosa) 错误 地 标 为 标签 1 (versicolor) 时 的 代价 ， 与 反 过 来 将 标签 1 (versicolor) 
错误 地 标 为 标签 0 Csetosa) 时 的 代价 相同 时 ， 选 取 0.5 作为 决策 边界 才 是 可 行 的 。 
不 过 大 多 数 情况 下 ， 分 类 出 错 的 代价 并 不 是 对 称 的 。 

































































做 预测 

一 旦 有 了 cw 和 有 8 之后， 我 们 就 能 用 其 对 新 的 数据 进行 分 类 。 可 以 创建 一 个 
非常 基础 的 函数 ， 接 受 花 苯 长 度 作为 参数 ， 返 回 分 类 结果 为 versicolor 的 概率 值 。 
具体 代码 如 下 所 示 : 


def classify(n threshold): 
























































A LMOLE. ClaSSifYy1N 首 世 机 E 疙 生 全 并 


n = np.array(n) 
mu = trace 0['alpha'] .mean() + trace 0['beta'] .mean() * n 
prob = 1/ (1 + np.exp(-mu)) 
return prob, prob > threshold 
classify(lS; SS 6] Qad) 


从 前 面 的 例子 可 以 看 出 ， 很 难 只 根据 花 划 长 度 就 将 setosa 和 versicolor 这 两 
类 花 区 分 出 来 。 事 实 上 如 果 你 仔细 看 过 joinplot 画 的 图 ， 就 可 以 很 清楚 地 观 
察 到 这 点 。 仔 细 观 察 数 据 可 以 发 现 ， 类 别 为 versicolor 的 花 的 花 划 长 度 最 小 值 约 
为 4.9， 而 类 别 为 setosa 的 花 的 花 划 长 度 最 大 值 约 为 5.8。 换 句 话说 ， 两 种 花 的 花 
葛 长 度 在 4.9 到 5.8 的 范围 内 有 重 盖 。 


如 果 只 使 用 另外 一 种 变量 呢 ? 请 查看 本 章 练习 中 的 第 一 题 ， 我 们 将 在 那里 控 
讨 这 个 问题 。 


























































































































5.2 ”多 元 逻辑 回归 
与 多 变量 线性 回归 类 似 ， 多 变量 逻辑 回归 使 用 了 多 个 自 变量 。 这 里 将 花 苯 长 
度 与 花 苯 宽度 结合 在 一 起 ， 注 意 这 里 需要 对 数据 做 一 些 预 处 理 。 
































df = iris.query(species == ('setosa', 'versicolor') 
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pd.Categorical (aft['species']) .codes 
Lsepal lenygth"; Sepal width"] 


x 
1 


df[x n] .values 


5.2.1 决策 边界 


如 果 你 对 如 何 推导 决策 边界 不 感 兴趣 的 话 ， 可 以 略 过 这 个 部 分 直接 跳 到 模型 
实现 部 分 。 根据 模型 ， 我 们 有 : 















































0= /ogistic (a + Poxo + PX) 





根据 逻辑 函数 的 定义 ， 当 逻辑 回归 的 参数 为 0 时 ， 我 们 有 0= 0.5 ， 也 就 是 说 : 





0.5= /logistic (a + foxo + BX)S0=a+poxot+ Pa 


移 项 之 后 可 以 得 出 ， 当 g=0.5 时 ， 对 于 x 我 们 有 : 


hb 
新宇 二 多 + -多 

这 个 决策 边界 的 表达 式 与 直线 的 表达 式 在 数学 形式 卡 是 一 样 的 ， 其 中 第 1 项 
表示 截 距 ， 第 2 项 表示 和 斜率， 这 里 的 括号 只 是 为 了 表达 上 更 清晰 ， 如 果 你 愿意 的 
话 完 全 可 以 去 掉 。 为 什么 决策 边界 是 直线 呢 ? 想 想 看 ， 如 果 我 们 有 一 个 特征 ， 还 
维 的 数据 ， 可 以 用 一 个 点 将 数据 分 成 两 组 :如果 有 两 个 特征 ， 也 就 有 一 个 2 
维 的 数据 空 x 间 ， 从 而 我 们 可 以 用 一 条 直线 来 对 其 分 割 ， 对 于 3 维 的 情况 ， 边 界 是 
个 平面 ， 对 于 更 高 的 维度 ， 我 们 对 应 有 一 个 超 平面 。 事 实 上 ， 从 概念 上 讲 ， 超 
平面 可 以 大 致 定义 为 n 维 空间 中 n-1 维 的 子 空间 ， 因 此 我 们 总 是 可 以 将 决策 边界 

称 为 超 平面 。 



































































































































5.2.2 ”模型 实现 


如 果 要 用 PyMC3 写 出 多 元 逻辑 回归 模型 ， 可 以 借助 其 向 量化 表示 的 优势 ， 
只 需要 对 前 面 的 单 参数 逻辑 回归 模型 做 一 些 简单 的 修改 即 可 。 




































































with pm.Model() as model 1: 
alpha = pm.Normal ('alpha', mu=0, sd=10) 





beta = pm.Normal('beta', mu=0, sd=2, shape=len (x D) ) 


mu = alpha + pm.math.dot (x 1, beta) 
theta = 1/ (1 + pm.math.exp(-mu)) 
















5.2 多 元 逻辑 回归 


bd = pm.Deterministic('bd', -alpha/beta[l] - beta[0]/beta[1] * x 1[:,0]) 
yl = pm.Bernoulli('yl', p=theta, observed=y 1) 
trace 1 = pm.sample(5000) 
chairm Ll.= trace .T1100 
varnames = ['alpha', 'beta'] 
pm.traceplot (chain 1) 
alpha 
从 Ei 
[3 
多 名 
[= 
四 有 
mn 
“30 -25 -20 -15 -10 -5 0 4000 5000 
05 betn ,10 beta 
Fo 
到 04 SH 
3 03 > t 
8 02 玉 
0.0 -10 
-10 -5 0 和 10 0 1000 2000 3000 4000 5000 
bd 7 bd 
vo 
加 号 
5 
加 J a 
2 I EE 
~ MP 1 
om 1 7 9 ton 2000 300 4000 5am0 





注意 在 前 面 的 图 中 ， 与 前 一 个 例子 的 区 别 是 我 们 得 到 的 不 再 是 一 个 单独 的 决 
策 边界 的 曲线 ， 而 是 得 到 了 100 个 ， 每 个 曲线 对 应 一 个 数据 点 。 


正如 我 们 对 单个 预测 变量 所 做 的 那样 ， 可 以 将 数据 以 及 决策 边界 画 出 来 ， 下 


面 的 代码 中 没有 画 sigmoid《〈 现 在 是 一 个 2D 的 曲面 )。 如 果 愿 意 的 话 ， 你 可 以 画 


出 3D 的 图 来 表示 sigmoid 曲面 。 


idx = np.argsort (x 1[:;0]) 
bd = 'bd'] .mean (0)I[ 
pltscatter (x Llsr0] “x 1l: 
plt.plot(x ll:d) [lid bd 


chain 1[ 


i 


bd hpd = 
plt.fill between(x 1[: 


pm.hpd (chain 1['bd' 
0] [idx], 


plt.xlabel ( fontsize= 


plt.ylabel ( 


我 们 已 经 看 到 过 的 ， 


x_n[0]， 
x_n[1]， 





fontsize= 


线 给 误 


[¥ax] 


], c=y_0) 





color= 


6) 
6) 


决策 边界 现在 是 一 条 直线 ， 不 要 被 95%HPD 区 间 的 曲 
导 了 。 图 中 半 透 明 的 曲线 是 由 于 在 中 间 部 分 〈 也 就 是 HPD 区 间 较 窗 的 部 




















"Ey 


) [idx] 
pd hpd{:, 


0]7 bd hpd[l:y1], color="'r", alpha=0.5)7 
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分 ) 有 多 条 直线 造成 的 。 


6 


sepal_width 





kh 


4.0 4.5 5.0 5.5 6.0 6.5 7.0 7 
sepal length 


5.2.3 处理 相关 变量 

前 一 章 中 我 们 了 解 了 在 处 理 高 度 相 关 的 变量 时 可 能 会 遇 到 一 些 奇怪 的 问题 。 
例如 ， 如 果 用 花 准 长度 和 花瓣 宽 度 作为 特征 重 跑 前 面 的 模型 ， 会 得 到 什么 样 的 结 
果 呢 ? 











如 果 完 成 了 上 面 的 练习 ， 你 可 能 会 注意 到 beta 系数 要 比 以 前 分 布 得 更 广 ， 
而 且 95%HPD 区 间 (红色 的 区 间 〉 也 更 宽 。 下 面 的 热力 图 显示 了 4 个 变量 之 间 
的 相关 性 ， 可 以 看 到 《前 一 个 例子 中 用 到 的 ) 花 划 长 度 与 花 苯 宽度 之 间 的 相关 性 
要 远 低 于 (后 一 个 例子 中 用 到 的 ) 花 斩 长 度 与 花 辩 宽度 之 间 的 相关 性 。 我 们 知道 ， 
相关 的 变量 会 得 到 更 广 的 系数 组 合 ， 因 而 能 更 好 地 解释 数据 ， 或 者 从 另外 一 个 角 
度 来 说 ， 相 关 的 变量 限制 模型 的 能 力 更 弱 。 


当 不 同类 别 的 数据 能 被 完美 区 分 时 ( 即 用 线性 模型 分 隔 之 后 不 同类 的 数据 没 
有 重 登 ) ， 类 似 的 问题 就 会 出 现 。 一 个 解决 办 法 是 不 使 用 相关 的 变量 ， 不 过 这 个 
办 法 可 能 有 时 候 并 不 适用 。 另 外 一 个 办 法 是 给 先 验 增加 更 多 的 信息 ， 如 果 我 们 掌 
握 了 一 些 有 用 的 信息 ， 可 以 使 用 一 些 携带 信息 的 先 验 ， 或 者 更 一 般 地 ， 可 以 使 用 
一 些 弱 信息 的 先 验 。Andrew Gelman 和 Stan 的 开发 团队 建议 在 进行 逻辑 回归 时 
使 用 如 下 先 验 : 

















































































































5.2 多 元 逻辑 回归 


Pp~ Student t(0,v, s) 


这 里 s 的 取 值 可 以 根据 期 望 的 尺度 引入 弱 信 息 ， 正 态 参 数 v 的 值 为 3 到 7 
附近 。 该 先 验 的 含义 是 : 我 们 期 望 系数 比较 小 ， 同 时 引入 了 重 尾 ， 从 而 得 到 一 
个 比 高 斯 分 布 更 鲁 棒 的 模型 。 如 果 你 忘记 了 的 话 ， 可 以 回忆 一 下 第 3 章 和 第 4 
章 中 的 内 容 。 























过 站 天 攻关 二 半 下 于 区 全 人 | 有 认 和 Ga 二、 人 可 斌 而 工 记 昌 | corr() 
mask = np.tri(*corr.shape) .T 
Sns .heatmap (corr.abs(), mask=mask, annot=True) 


0.60 
0.45 
0.30 


sepal length sepal width petal length petal_width 

前 面 的 图 中 ， 使 用 了 一 个 掩 码 操作 去 掉 了 热力 图 中 的 上 三 角 和 对 角 线 上 的 元 
素 ， 因 为 这 部 分 提供 的 是 无 效 信息 或 者 见 余 信息 。 同 时 还 需要 注意 ， 这 里 打印 的 
是 相关 性 的 绝对 值 ， 原 因 是 这 里 我 们 只 关心 相关 性 的 强 弱 而 不 关心 是 正 相 关 还 是 
负 相 关 。 


petal_width petal length sepal width sepal_length 


















































5.2.4 ”处 理 类 别 不 平衡 数据 

意 尾 花 数 据 集 的 一 个 优点 是 : 其 中 不 同类 别 的 样本 量 是 均衡 的 ，setosas、 
versicolors 和 virginicas 各 有 50 个 。 意 尾 花 数据 集 的 流行 归功 于 Fisher， 当 然 ， 
Fisher 还 让 另 一 个 东西 也 流行 了 一 之 值 。 实 际 使 用 中 许多 数据 集中 的 类 别 都 是 不 
平衡 的 ， 也 就 是 说 ， 其 中 一 类 数据 的 数量 要 远 多 于 其 他 类 别 的 数据 。 当 这 种 情况 
发 生 时 ， 逻 辑 回 归 会 遇 到 一 些 问题 ， 相 比 数据 平衡 时 的 情况 ， 逻 辑 回归 得 到 的 边 
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界 没有 那么 准确 了 。 
现在 我 们 看 个 实际 的 例子 ， 这 里 我 们 随机 从 setosa 类 别 中 去 掉 一 些 数 据点 。 




















df = iris.query(species == ('setosa', 'versicolor')) 
df = df[45:] 
y 3 = pd.Ccategorical'(df['species']).codes 


x n= ['Sepal. length'y ‘Sepal. width"] 
x 3 = df[x n].values 


和 之 前 一 样 ， 你 可 以 在 自己 电脑 上 运行 多 元 逻辑 回归 ， 这 里 我 直接 将 结果 表 
示 出 来 。 























idx = np.argsort (x 3[:;0]) 

bd = trace 3['bd'] .mean(0) [idx] 
blt.scatter (x 3[l:,0], x 3l:,1]; c=Y 3) 
pltplot (x 3l:7r0Qllidxl; bad Solor="E"): 


bd hpd = pm.hpd(trace 3['bd']) [idx] 
plt.fill between (x 3[:;0] [idx]; ba hpdl:,0]; bd hpdl:;1],; color="'r'; alpha=0.3); 


二 


lt.xlabel (x n[0], fontsize=16) 
lt.ylabel (x n[1], fontsize=16) 
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ey 





4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.3 


可 以 看 到 ， 决 策 边界 向 样本 量 更 少 的 类 别 偏 移 了 ， 而 且 不 确定 性 也 比 以 前 更 大 
了 。 这 是 逻辑 回归 在 处 理 不 均衡 数据 时 的 常见 表现 。 在 一 些 数据 中 ， 类 别 之 间 的 间 
隔 可 能 不 像 这 个 例子 中 这 么 完美 ， 此 时 用 逻辑 回归 分 类 得 到 的 结果 中 类 别 重 登 的 现 
象 更 严重 。 不 过 你 可 能 觉得 不 确定 性 变 得 更 大 有 可 能 是 因为 数据 总 量变 少 了 ， 而 不 




















5.2 多 元 逻辑 回归 











是 因为 setosas 类 别 的 数据 相 比 versicolors 更 少 。 这 是 有 可 能 的 ， 你 可 以 完成 练习 
部 分 的 第 2 题 之 后 ， 亲 自 验证 为 什么 不 确定 性 变 大 的 原因 是 数据 不 平衡 。 





上 兽 



































5.2.5 如何 解决 类 别 不 平衡 的 问题 

一 个 显而易见 的 解决 方案 是 ， 对 数据 集中 的 每 一 类 都 获取 几乎 相同 数量 的 样 
本 ， 如 果 你 自己 收集 或 者 生成 数据 的 话 一 定 要 记 住 这 点 。 如 果 你 并 不 能 控制 数据 
集 ， 那 么 在 对 类 别 不 平衡 的 数据 进行 解释 时 可 要 当心 了 ， 你 可 以 通过 检查 模型 的 
不 确定 性 以 及 运行 后 验 预 测 检查 来 确定 模型 是 否 对 你 有 用 。 另 外 一 种 做 法 是 给 数 
据 加 入 更 多 的 先 验 信息 ， 如 果 可 能 的 话 ， 可 以 运行 本 章 剩 余部 分 提 到 的 一 些 其 他 
模型 。 







































































5.2.6 解释 逻辑 回归 的 系数 
解释 罗 辑 回归 的 系数 时 一 定 要 非常 小 心 ， 因 为 逆 连 结 函数 〈 逻 辑 函数 ) 引入 
了 非 线性 。 





0=logistic(a + PX ) 


逻辑 函数 的 逆 函 数 是 logit 函数 ， 其 形式 为 : 








iogit (3) -log[ = ] 
因此 ， 根 据 第 一 个 等 式 ， 我 们 有 : 


logit (0)=a+BX 





0 
注意 这 里 模型 中 的 g 是 y=1 的 概率 值 ， 因 此 : 


P(U=D | 
oe TC -e+ px 


os 区 =CQ+OXK 

















三 寺 
其 中 于 称 作 发 生 比 ， 是 另 一 种 表示 概率 的 方式 。 比 如 ， 摔 角子 得 到 
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点 数 2 的 概率 为 /6， 因 而 其 发 生 比 为 1:5( 即 0.2)， 也 就 是 说 有 1 个 期 望 发 生 
的 事件 和 5 个 不 期 望 发 生 的 事件 。 


回 到 逻辑 回归 上 上， 系数 PB 的 意义 是 : 当 x 增加 单位 量 的 时 候 ， 发 生 比 的 对 
数 增 量 。 需 要 注意 的 是 ，B8 并 不 是 指 当 x 增加 时 PO=D) 的 增 量 ， 因 为 二 者 之 间 
的 关系 并 不 是 线性 的 。 如 果 B 是 正 数 ， 那 么 增加 x 会 在 某 种 程度 上 增加 PO=1)， 
但 是 具体 的 增 量 取决 于 当前 x 的 值 。 这 一 点 在 前 面 画 的 S 型 曲线 上 可 以 看 出 来 ， 
对 x 的 斜率 随 着 x 的 变化 而 变化 ， 但 是 发 生 比 的 对 数 相对 于 x 的 斜率 则 是 线 
性 的 。 






























































































































































5.2.7 ”广义 线性 模型 

现在 对 本 章 所 学 的 内 容 总 结 下 ， 分 析 一 下 本 章 内 容 是 如 何 与 前 一 章 中 线性 回 
归 模 型 联系 起 来 的 。 我 们 所 做 的 就 是 将 模型 扩展 应 用 到 类 别 变量 ， 具 体 做 法 是 引 
入 了 逆 连 结 函数 ， 并 且 将 高 斯 分 布 蔡 换 成 了 另外 一 种 分 布 〈 伯 努 利 分 布 )。 总 的 
来 说 就 是 : 通过 改变 似 然 、 先 验 及 首 连 结 函 数 , -我 们 把 前 一 章 中 的 线性 回归 模型 
灸 用 到 了 不 同 的 数据 /问题 上 。 


逻辑 回归 模型 并 非 线 性 回归 模型 的 唯一 扩展 。 事 实 土 ， 有 一 系列 模型 都 可 以 
看 作 是 线性 回归 模型 的 一 般 形式 ， 通 常 称 为 广义 线性 模型 。 统 计 学 中 一 些 常 用 的 
广义 线性 模型 有 : 


国 softmax 回归 (下 一 章 会 见 到 ) ， 将 逻辑 回归 应 用 到 多 于 两 个 类 别 的 分 类 
问题 。 
图 方差 分 析 (ANalysis Of VAriance，ANOVA) ， 其 中 有 一 个 连续 的 因 
量 和 两 个 以 上 的 离散 的 自 变 量 。ANOVA 模型 主要 用 来 比较 不 同 组 之 
间 的 相似 程度 ， 该 方法 用 的 是 线性 回归 模型 。 

国 泊 松 回归 ， 我 们 将 在 第 7 章 学 习 泊 松 回归 模型 的 一 个 变种 。 
本 书 没有 包含 广义 线性 模型 这 部 分 内 容 ， 如 果 你 想 深入 学 习 ， 特 别 是 ANOVA 
模型 ， 我 强烈 推荐 John Kruschke 的 《Doing Bayesian Data Analysis》 一 书 ， 书 中 
针对 如 何 构 建 基于 广义 线性 模型 的 贝 叶 斯 模型 有 很 详细 的 介绍 。 

































































































































































































































































5.2.8 Softmax 回归 或 多 项 逻辑 回归 





现在 我 


门 知道 了 如 何 处 理 二 














分 类 














类 问题 。 
这 里 使 用 的 是 softmax 














要 计算 向 量 4 中 第 i 个 元 素 对 应 
softmax 函数 保证 了 输 





向 量 4 中 每 个 元 素 的 
当 f=2 时 ， 
曼 分 布 形式 是 一 样 
分 布 的 一 个 强大 分 支 。 





尔 


一 种 做 法 是 使 




















区 


sofimaxi(1) = 





指数 之 和 。 


的 ， 玻 尔 





多 项 逻辑 回归 ， 
数 而 非 逻 辑 函数 ，softmax 函数 的 形式 如 下 : 


该 模型 也 被 科 


exp(u) 
>》 ,explu) 


的 softmax 输出 ， 








softmax 函数 就 变 成 了 逻辑 函数 。 另 外 ，so 





问题 ， 接 下 来 将 我 们 所 学 的 内 容 推 
尔 作 softmax 回 


下 
TH 


出 人 


ftmax 函数 与 统计 学 中 的 玻 


5.2 多 元 逻辑 回归 





广 到 多 
原因 





各 池 























归 ， 


要 将 该 元 素 的 指数 除 以 
直 为 正 数 而 且 和 为 1。 



































曼 分 布 也 是 物理 学 中 











j 来 描述 分 子 系统 中 概率 


在 玻 尔 效 曼 分 布 中 《〈 某 些 领域 中 的 softmax) 有 一 个 称 为 温度 的 参数 (7)， 
rsd Pees te re ai 





名， 因而 所 
softmax 表现 得 就 像 一 


回归 模型 














softmax 


分 布 。 类 


es 函 








与 逻辑 上 






































努 利 分 布 〈 抛 一 次 硬 





别 分 布 其 实 是 伯 努 利 分 布 推广 到 两 个 以 上 和 输 
) 是 二 项 分 布 ( 抛 多 次 硬币 ) 的 特殊 情况 ， 类 似 地 ， 关 昂 


数 ，; 这 机 是 丰 名 剖 来 尖 


归 模 型 的 另 一 个 区 别 是 : 1 





H 时 





能 的 状态 会 输出 ， 因 





而 


日 努 利 分 布 换 成 了 类 别 
的 一 般 形 式 。 此 外 ， 伯 








分 布 ( 撕 一 次 般 子 〉 是 多 项 分 布 ( 撕 入 次 般 子 ) 的 特殊 情况 。 


normal or 





> (a+pX) 


FA 
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这 里 继续 使 用 辣 尾 花 数 据 集 ， 不 过 这 次 用 到 其 中 的 3 个 类 别 标签 (setosa、 
versicolor 及 virginica) 和 4 个 特征 ( 花 莹 长 度 、 花 苯 宽度 、 花 注 长 度 及 花 注 
宽度 ) ， 同 时 对 数据 进行 标准 化 处 理 〈 也 还 可 以 做 中 心 化 处 理 ) ， 这 样 采 样 效 
率 更 高 。 


iris = snssload dataset ("iris.") 











ys = pd.Ccategorical(irisl "species']).codes 

x n = iris.columns[:-1] 

x S = iris[x nj].values 

xs= (x Ss- x s.meanl(axis=0))/x s.stdl(axis=0) 


从 PyMC3 的 代码 可 以 看 出 ， 逻 辑 回 归 模 型 与 softmax 模型 之 间 的 变化 很 小 ， 
留意 alpha 系数 和 beta 系数 的 长 度 。 这 段 代 码 中 用 到 了 Theano 中 的 softmax 函数 ， 
根据 PyMC3 开发 者 的 惯例 ， 按 import theano.tensor as tt 这 种 方式 导 
入 的 Theano。 





with pm.Model() as model s: 
alpha = pm.Normal ('alpha', mu=0, sd=2,~shape=3) 
beta = pm.Normal ('beta', mu=0, sd=2% shape= (4%3)) 


mu = alpha + pm.dot (x s, beta) 


theta = tt.nnet.softmax (mu) 


yl = pm.Categorical('yl', p=theta, observed=y s) 

start = pm.tind MAP () 

step = pm.NUTS() 

trace s = pm.sample(2000, step, start) 
pm.traceplot (trace s) 
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那么 我 们 的 模型 表现 如 何 呢 ? 可 以 根据 准确 预测 的 样本 个 数 来 判断 。 下 
面 的 代码 中 使 用 了 参数 的 均值 来 计算 每 个 点 分 别 属于 3 个 类 别 的 概率 值 ， 然 





5.2 多 元 逻辑 回归 
































后 使 用 argmax 函数 求 出 概率 最 大 的 类 别 作为 结果 ， 最 后 将 结果 与 观测 值 进 
行 比 较 。 














data pred = trace s['alpha'] .mean(axis=0) + np.dot (x s, trace s['beta']. 
mean (axis=0)) 
y_pred = [] 
for point in data pred: 
y_pred.append (np.exp (point) /np.suml(np.exp (point), axis=0)) 


np.sum(y s == np.argmax(y pred, axis=1))/lenl(y s) 


分 类 结果 显示 准确 率 约 为 98%， 也 就 是 说 ， 只 错 分 了 3 个 样本 。 不 过 ， 真 正 
要 评估 模型 的 效果 需要 使 用 模型 没有 见 过 的 数据 ， 否 则 ， 可 能 会 高 佑 了 模型 对 其 
他 数据 的 泛 化 能 力 。 下 一 章 我 们 会 详细 讨论 这 个 主题 ， 目 前 暂且 把 它 当 做 自动 一 
致 性 检查 ， 证 明 我 们 的 模型 运行 正常 。 

也 许 你 已 经 注意 到 了 ， 后 验 ( 或 者 更 准确 地 说 ， 每 个 参数 的 边缘 分 布 ) 看 
起 来 分 布 得 很 宽 ， 事 实 上 ， 它 们 与 先 验 分 布 得 一 样 宽 。 尽 管 我 们 能 做 出 正确 的 预 
测 ， 但 这 看 起 来 并 不 令 人 满意 。 在 前 面 的 线性 / 多 辑 回 归 问 题 中 ， 对 于 有 相关 性 
的 数据 或 者 可 以 完美 分 割 的 数据 ， 我 们 也 遇 到 过 类 似 不 可 识别 的 问题 。 在 这 个 例 
子 中 ， 后 验 分 布 较 广 是 因为 受到 了 所 有 概率 之 和 为 1 的 限制 。 在 这 种 情况 下 ， 我 
们 用 到 的 参数 个 数 比 实际 定义 模型 所 需要 的 参数 个 数 更 多 。 简 单 来 说 就 是 ， 假 如 
10 个 数 的 和 为 1， 你 只 需要 知道 9 个 数 就 可 以 了 ， 剩 下 的 1 个 数 可 以 用 1 减 去 这 
9 个 数 之 和 算出 来 。 解 决 这 个 问题 的 办 法 是 将 额外 的 参数 固定 为 某 个 值 ( 比 如 0)。 
下 面 的 代码 展示 了 如 何 用 PyMC3 来 实现 。 






















































































































































































with pm.Model() as model sf: 
alpha = pm.Normal('alpha', mu=0, sd=2, shape=2) 
beta = pm.Normal ('beta', mu=0, sd=2, shape= (4,2)) 


alpha f = tt.concatenate([[0] ，alphal]) 


beta f = tt.concatenate([np.zeros((4,1)) , beta], axis=1) 


mu = alpha f + pm.math.dot (x s, beta f£) 


theta = tt.nnet.softmax (mu) 


yl = pm.Categorical('yl', p=theta, observed=y s) 
start = pm.find MAP () 
step = Pm.NUTS () 
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trace sf = pm.sample(5000, step, 
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5.3 ”判别 式 和 生成 式 模型 

目前 为 止 ， 我们 已 经 讨论 了 逻辑 回归 及 其 扩展 ， 所 有 这 些 情 况 都 是 直接 计算 
pC |)， 也 就 是 说 ， 在 知道 x 的 条 件 下 ， 计 算出 类 别 y 的 概率 值 。 换 句 话 说， 我 
们 所 做 的 是 直接 根据 自 变 量 到 因 变 量 之 间 的 关系 进行 建 模 ， 然 后 用 一 个 闵 值 对 得 
到 的 《连续 的 ) 概率 值 进行 评判 ， 从 而 得 到 分 类 结果 。 

上 面 这 种 方法 不 是 唯一 的 ， 男 一 种 方法 是 先 对 pC]y) 建 模 ， 即 类 别 计算 特 
征 的 分 布 ， 然 后 再 进行 分 类 ， 这 类 模型 称 为 生成 式 分 类 器 ， 因 为 我 们 得 到 的 模型 
可 以 从 每 个 类 别 中 生成 采样 。 与 此 相反 ， 逻 辑 回 归属 于 判别 式 分 类 器 ， 因 为 它 只 
能 判断 一 个 样本 是 不 是 属于 某 一 类 别 ， 并 不 能 从 每 个 类 别 中 生成 样本 。 

这 里 我 们 不 打算 深入 生成 式 分 类 器 模型 ， 不 过 可 以 通过 一 个 例子 来 说 明 这 类 
模型 用 于 分 类 的 核心 思想 。 我 们 只 使 用 两 个 类 别 和 一 个 特征 ， 与 本 章 的 第 一 个 例 
子 用 到 的 数据 一 样 。 


下 面 的 代码 用 PyMC3 实现 了 一 个 生成 式 分 类 器 ， 从 代码 中 可 以 看 出 ， 现 
在 决策 边界 变 成 了 高 斯 分 布 期 望 的 估计 值 的 均值 ， 当 分 布 是 正 态 分 布 且 标准 差 
相同 时 ， 这 个 决策 边界 是 正确 的 。 这 些 假设 是 由 一 种 称 作 线 性 判别 分 析 (Linear 
Discriminant Analysis，LDA) 的 模型 做 出 的 ， 尽 管 名 字 上 是 判别 式 分 析 ， 不 过 
LDA 模型 其 实 是 生成 式 的 。 


with pm.Model() as lda: 
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mus = pm.Normal ('mus', mu=0, sd=10, shape=2) 
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sigmas = pm.Uniform('sigmas', 0, 10) 
setosa = pm.Normal('setosa', mu=mus[0], sd=sigmas[0], observed=x 0[:50]) 
versicolor = pm.Normal('setosa', mu=mus[1], sd=sigmas[1], observed=x 0[50:]) 


bd = pm.Deterministic('bd', 


(mus [0]+mus [1])/2) 











start = pm.tind MAP () 
step = Pm.NUTS () 
trace = pm.sample (5000, step, start) 
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下 面 再 将 setosa=0 和 versicolor=Ll 了 两 个 类 别 与 花 苯 长 度 的 关系 画 出 来 ， 


一 同 画 出 来 的 还 有 一 条 红色 的 决策 边界 以 及 对 应 的 95%HPD 区 间 。 


1.0 
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对 决策 边界 进行 检查 。 





打印 出 模型 的 总 结 ， 


pm.df_summary (trace_1da) 



























































mean sd mce_error hpd 2.5 hpd 97.5 
mus 0 5.01 0.06 8.16e-04 4.88 5.13 
mus 1 5.93 0.06 6.28e-04 5.81 6.06 
sigma 0.45 0.03 1.52e-03 0.38 0.51 
bd 5.47 0.05 5.36e-04 5.38 5.56 
可 以 看 到 LDA 模型 得 到 了 与 逻辑 回归 类 似 的 结果 。 
线性 判别 式 模 型 可 以 使 用 多 元 高 斯 分 布 对 类 别 建 模 ， 从 而 将 其 扩展 到 超过 一 



























































个 特征 的 情况 。 此 外 ， 还 可 以 对 不 同类 别 的 数据 共享 同 











个 方差 (或 者 是 同 


个 


方差 矩阵 ， 对 于 超过 一 个 特征 的 情况 来 说 ) 的 假设 进行 放松 。 这 样 便 得 到 了 称 作 
二 次 判别 分 析 〈Quadratic Linear Discriminant，QDA) 的 模型 ， 此 时 决策 边界 不 











再 是 线性 的 ， 而 是 二 次 的 。 
通常 ， 当 特征 





基 











好 ， 如 果 假 设 不 成 立 ， 逻 辑 回 归 的 效果 要 更 好 关 些 > 使 月 


























符合 高 斯 分 布 时 ，IHDA 或 QDA 的 效果 要 比 示 辑 回归 更 
判别 式 模型 分 类 的 一 个 


好 处 是 : 在 模型 中 融合 先 验 更 容易 (或 者 说 更 自然 );- 比 如 我 们 可 以 将 数据 均值 


和 方差 的 信息 融入 到 模型 中 去 。 





需要 注意 : LDA 和 QDA 的 决策 边界 是 封闭 式 的 ， 对 于 两 个 类 别 和 一 个 特征 的 














情况 ， 应 
就 得 到 了 决策 边界 。 在 前 本 









































的 模型 中 》 水 电 
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的 ， 因 此 LDA 只 有 在 数据 分 布 接近 高 斯 分 布 的 时 候 更 





当 我 们 想 对 正 态 性 的 假设 放松 的 时 候 (比如 分布 或 者 多 元 t 分 布 等 );， 就 不 能 再 
村 LDA (或 QDA)〉 了 ， 不 过 我 们 仍然 可 以 用 PyMC3 从 数值 上 计算 出 决策 边界 。 


























5.4 ”总结 





本 章 我 们 学 习 了 如 何 扩展 单 参数 线性 回归 模型 用 于 处 到 


斯 分 布 的 参数 ， 然 后 将 这 些 估计 融入 公式 中 ， 不 过 公式 是 怎么 来 的 
深入 更 细节 的 内 容 ， 只 需要 知道 要 得 到 该 公式 ， 我 们 需要 假设 数据 
显然 ， 在 茶 些 问题 中 ， 














效 。 











分 类 问题 ， 
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] LDA 的 时 候 只 需要 分 别 计 算出 每 个 类 别 分 布 的 均值 ， 然 后 求 二 者 的 均值 
了 更 贝 叶 斯 的 一 种 方式 ， 我 们 估计 出 两 
呢 ? 这 里 不 
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5.6 练习 











两 种 类 别 时 如 何 用 逻辑 回归 进行 贝 叶 斯 分 类 ， 以 及 在 超过 两 种 类 别 时 如 何 利用 
softmax 回归 进行 中叶 斯 分 类 。 我 们 还 学 习 了 什么 是 逆 连 结 函数 ， 如 何 用 来 构建 
广义 线性 模型 ， 广 义 模型 大 大 地 扩展 了 线性 模型 所 能 解决 的 问题 。 此 外 还 学 习 了 
建 模 过 程 中 可 能 需要 注意 的 地 方 ， 比 如 遇 到 有 关联 的 变量 、 完 美 分 类 的 类 别 或 者 
有 偶 的 类 别 时 应 该 怎么 处 理 。 我 们 重点 关注 的 是 判别 式 模型 ， 稍 微 了 解 了 下 生成 
式 模型 ， 并 学 习 了 二 者 之 间 的 主要 区 别 。 

























































































5.5 深入 阅读 

国 《Doing Bayesian Data Analysis, Second Edition》 的 第 21 章 和 第 22 章 。 

加 《Statistical Rethinking》 的 第 10 章 。 

国 《An Introduction to Statistical Learning by Gareth James and others (second 
edition)》 的 第 4 章 。 

国 查看 PyMC3 中 有 关 人 逻辑 回归 的 例子 : https:/pymc-devs.github.io/pymec3/ 
notebooks/GLM-logistic.html。 这 个 例子 还 包含 了 我 们 下 一 章 中 将 要 讨论 
的 模型 比较 相关 的 内 容 。 



































5.6 练习 
(1) 使 用 花 泊 长 度 和 花 流 宽度 作为 变量 重 跑 第 一 个 模型 。 二 者 的 结果 有 何 区 
别 ? 两 种 情况 下 的 95%HPD 区 间 分 别 是 多 少 ? 


(2) 重 跑 练习 (1)， 这 次 使 用 t 分 布 作为 弱 先 验 信 息 。 尝 试 使 用 不 同 的 
态 参 数 v。 
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(3) 回 到 第 1 个 例子 中 ， 用 逻辑 回归 根据 花 莹 长 度 判 断 属于 setosa 还 是 
versicolor。 尝 试用 第 1 章 中 的 单 参数 回归 模型 来 解决 这 个 问题 ， 线 性 回归 的 结果 
相 比 逻辑 回归 的 效果 如 何 ? 线性 回归 的 结果 能 解释 为 概率 吗 ? 提示 : 检查 y 值 是 
否 位 于 [0,1] 区 间 内 。 

(4) 假设 我 们 不 用 softmax 回归 ， 而 是 用 单 参 数 线性 模型 ， 并 将 类 别 编码 为 
setosa =0, versicolor =1, virginica = 2。 在 单 参数 线性 回归 模型 中 ， 如 果 我 们 交换 
类 别 的 编码 方式 会 发 生 什么 ?结果 会 保持 一 样 还 是 会 有 所 不 同 ? 
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(5) 在 处 理 不 均衡 数据 的 例子 中 ,将 df = aqf[45:] 改 为 af[22:78]， 
这 样 做 得 到 的 数据 点 个 数 几 乎 没 变 ， 不 过 现在 类 别 变 得 均衡 了 ， 试 比较 这 两 种 情 
况 的 结果 ， 哪 种 情况 得 到 的 结果 与 使 用 完整 数据 集 得 到 的 结果 更 相似 呢 ? 

(6) 比较 逻辑 回归 模型 与 LDA 模型 的 似 然 ， 用 函数 sample_ppc 生成 预测 
数据 并 比较 ， 确 保 理 解 其 中 的 不 同 。 



























































|] 6 
模型 比较 


所 有 模型 都 是 错 的 ， 但 某 些 是 有 用 的 。 
一 一 George Box 

我 们 已 经 讨论 过 “所 有 模型 都 是 错 的 ”这 一 思想 ， 原 因 是 模型 只 是 通过 数 
据 理 解 问题 的 一 个 近似 工具 ， 并 非 对 真实 世界 的 完整 刻画 。 尽 管 每 个 模型 都 是 错 
误 的 ， 但 是 并 非 每 个 模型 都 错 得 一 样 。 某 些 模 型 在 描述 同一 份 数据 时 会 错 得 更 离 
谱 。 前 一 章 中 ， 我 们 重点 关注 了 推断 的 问题 ， 也 就 是 根据 数据 推 新 参数 的 值 。 这 
一 章 ， 我 们 将 关注 另外 一 个 问题 : 如 何 比 较 两 个 或 多 个 模型 。 这 个 问题 并 不 简 
单 ， 而 且 目 前 也 是 数据 分 析 中 的 一 个 核心 问题 。 

本 章 将 讨论 以 下 内 容 : 
奥 卡 姆 剃 万 、 简 洁 性 与 准确 率 、 过 拟 合 与 从 拟 合 ; 
正则 先 验 ; 
信息 量 准则 ; 
贝 叶 斯 因子 。 

































































































































































6.1 奥 卡 姆 剃刀 一 一 简约 性 与 准确 性 


假设 对 于 同一 个 问题 /数据 有 两 个 模型 ， 二 者 对 数据 解释 得 同样 好 ， 应 该 
选 哪个 模型 呢 ? 有 一 个 准则 叫做 奥 卡 姆 剃 万， 描述 的 是 如 果 对 于 同一 现象 有 两 
种 不 同 的 假说 ， 我 们 应 该 采取 比较 简单 的 那 一 种 。 关 于 奥 卡 姆 剃刀 的 论证 有 很 
多 ， 其 中 之 一 与 波 普尔 的 可 证 伪 性 标准 有 关 ， 还 有 一 种 说 法 是 从 实用 的 角度 提 
出 的 ， 因 为 更 简单 的 模型 相 比 复杂 的 模型 更 容易 理解 ， 男 外 还 有 一 种 论证 是 基 
于 贝 叶 斯 统计 。 这 里 暂且 不 深入 这 些 论 证 的 细节 ， 只 是 将 该 准则 当做 一 个 有 用 
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而 合理 的 常识 。 


在 比较 模型 时 ， 通 常 还 需要 考虑 模型 的 准确 性 ， 即 模型 对 数据 拟 合 得 怎么 
样 。 我 们 已 经 见 过 了 一 些 衡 量 准确 性 的 标准 ， 如 测定 R 的 系数 ， 可 以 将 其 理解 
为 线性 回归 中 可 解释 方差 的 比例 。 如 果 我 们 有 两 个 模型 ， 其 中 一 个 模型 对 数据 的 
解释 比 另 一 个 更 好 ， 我 们 是 否 更 倾向 于 该 模型 呢 ? 换 句 话 说 ,我 们 是 否 应 该 选 准 
确 率 更 高 的 模型 呢 ? 我 们 更 倾向 于 更 简单 的 模型 。 


直观 上 讲 ， 在 比较 模型 时 ， 我 们 似乎 更 倾向 于 准确 率 较 高 ， 同 时 比较 简单 的 
模型 。 本 章 剩余 部 分 将 讨论 如 何平 衡 这 两 者 。 


这 一 章 要 比 前 面 儿 章 更 偏 理 论 一 些 ( 尽 管 我 们 还 只 是 在 讨论 这 个 主题 中 很 浅 
显 的 部 分 )。 为 了 简化 问题 ， 这 里 引入 一 个 例子 来 帮助 理解 如 何平 衡 准确 性 与 复 
杂 性 ， 实 现 从 感性 认识 到 理论 证 明 的 跨越 。 


在 这 个 例子 中 ， 我 们 将 使 用 一 系列 逐渐 复杂 的 多 项 式 来 拟 合 一 个 非常 简单 的 
数据 集 ， 这 里 我 们 没有 采用 贝 叶 斯 方法 ， 而 是 采用 最 小 二 乘 方 近 似 来 拟 合 线性 模 
型 。 后 者 其 实 可 以 转化 成 一 个 带 均匀 先 验 的 贝 叶 斯 模型 ， 因 此 ， 这 里 可 以 理解 为 
还 是 用 的 贝 叶 斯 模型 ， 只 不 过 我 们 走 了 个 捷径 











































































































































































































































































































= MD Array(l4.rDsr G9 12: 14.1]) 
y = nparray([d.2, Or Oey 0 
order = [0, 1, 2, 5] 
DLSBLot( YY “0") 
for 1 410 Order: 
x n = np.linspace (x.min(), x.max(), 100) 
coeffs = np.polytit (x, y, deg=i) 
ffit = np.polyval (coeffs, x_n) 
p = np.polyld(coeffs) 
yhat = p(x) 
ybar = np.mean (y) 
ssreg = np.suml( (yhat-ybar) **2) 
sstot = np.sum((y - ybar)**2) 
r2 = ssreg / sstot 
plt.plot (x n, ffit, label='order {}, S$R^2$= {:.2f}'.format (i,r2)) 
plt.legend (loc=2, fontsize=14) 
plt.xlabel ('$x$', fontsize=16) 
plt.ylabel('$y$', fontsize=16, rotation=0) 





6.1 奥 卡 姆 剃刀 


order 0， R=0.00 
order |, R=0.91 
一 一 order 2, R=0.98 
order 5， R=1.00 








6.1.1 参数 太 多 导致 过 拟 合 


从 前 面 的 图 中 可 以 看 出 ， 当 模型 的 复杂 度 增 加 ， 对 应 的 决定 系数 尺 也 
在 上 升 。 当 多 项 式 为 5 阶 时 ， 模 型 完美 拟 合 了 数据 。 


过 ， 通 常 ， 


为 什么 






































简约 性 与 准确 性 











前 面 章节 中 我 们 讨论 
] 多 项 式 去 解决 实际 问题 并 不 是 一 个 特别 好 的 办 法 。 


5 阶 的 多 项 式 能 够 完美 地 拟 合 所 有 数据 呢 ?” 原 因 是 模型 中 参数 的 个 数 














与 样本 个 数 相同 ， 都 是 6， 因 此 ， 模 型 只 是 用 另 一 种 方式 对 数据 进行 了 编码 ， 此 
时 模型 并 没有 从 数据 中 学 到 任何 内 容 ， 只 是 记 住 了 全 部 的 数据 。 而 且 该 模型 对 数 


据 的 预测 看 

















观 上 讲 ， 直 


而 且 更 可 信 。 











起 来 非常 奇怪 。 从 前 面 的 图 中 可 以 看 到 ，5 阶 多 项 式 对 应 的 那 条 最 佳 拟 
合 曲 线 一 会 儿 高 一 会 儿 低 ， 对 比 之 下 1 阶 和 2 阶 的 模型 分 别 是 直线 和 抛物 线 。 直 
线 或 者 抛物 线 要 比 一 条 弯 弯 曲 曲 的 完美 拟 合 所 有 数据 的 曲线 要 更 简单 

































































从 这 个 例子 可 以 看 出 ， 准 确 率 更 高 的 模型 可 外 




















EE 并 不 是 我 们 想 要 的 。 


下 面 的 例子 从 另外 一 个 重要 的 角度 做 出 了 解释 。 假 设 我 们 在 原来 数据 集 的 基 














型 并 没有 从 数据 中 学 到 任何 有 意义 的 模式 ， 只 是 记 住 了 所 
于 潜在 的 未 观测 到 的 数据 表现 很 差 。 











础 上 收集 了 更 多 的 数据 。 比 如 ， 我 们 又 收集 到 了 2 个 点 [(10, 9), (7,7)] 〈 如 下 面 的 
图 所 示 )， 此 时 5 阶 模型 对 比 1 阶 或 者 2 阶 模 型 的 效果 如 





可 呢 ? 并 不 好 。5 阶 模 
见 过 的 数据 ， 因 而 对 
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对 数据 过 拟 合 。 这 一 点 是 在 使 用 复杂 模型 时 的 一 个 现实 考虑 ， 同 
刀 的 一 个 现实 佐证 。 


已 


可。 


11 
order 0， R=0.00 


order 1 ,R=0.91 
order 2,R*=0.98 
order 5, R=1.00 














10 





4 6 8 10 12 14 





之 所 以 泛 化 能 力 差 是 因为 模型 太 灵活 了 ， 参 数 太 多 导致 了 过 拟 合 。 在 统计 学 
和 机 器 学 习 中 ， 过 拟 合 是 一 个 很 常见 的 问题 ， 二 县 模型 开始 学 习 数据 中 模式 之 外 
的 噪声 时 就 会 出 现 过 拟 合 的 问题 ， 显 然 这 里 我 们 假设 数据 中 首先 是 存在 有 意义 的 
模式 的 。 通 常 ， 一 个 模型 的 参数 越 多 ， 适 应 数据 的 方式 也 就 越 多 ， 因 而 更 倾向 于 












































这 个 例子 告诉 我 们 ， 如 果 仅 仅 关注 模 型 对 数据 的 解释 能 力 ， 很 可 


原 





因 是 , 《至 少 理论 上 ) 我 们 始终 可 以 通过 增加 模型 参数 个 数 来 提高 准 

















村 也 是 奥 卡 姆 弟 


被 误 

















率 2 
2 
| o 





这 里 引入 一 些 词汇 来 让 我 们 的 讨论 更 清晰 一 些 ， 我 们 称 根据 输入 到 模型 的 数据 计 
算出 来 的 准确 率 为 样本 内 准确 率 ， 另 外 一 种 衡量 模型 有 效 性 的 方式 是 计算 模型 在 
没有 见 过 的 数据 上 的 准确 率 ， 通 常 称 为 样本 外 准确 率 。 














6.1.2 参数 太 少 导致 欠 拟 合 


继续 同样 的 例子 ， 不 过 这 次 重点 关注 的 不 是 非常 复杂 

















的 模型 ， 而 是 0 阶 的 模 


型 。 在 0 阶 模型 中 ， 所 有 的 beta 参数 都 为 0， 因 而 两 个 变量 之 间 的 线性 关系 变 成 











] 












































只 是 描述 因 变 量 的 一 个 高 斯 模型 ， 注 意 对 于 0 阶 模型 来 说 ， 自 变量 对 模型 不 再 
任何 


影响 ， 而 且 模 型 只 能 捕捉 到 因 变 量 的 均值 。 换 名 话说， 模型 认为 数据 能 够 











6.1 奥 卡 姆 剃刀 




















通过 因 变 量 的 均值 以 及 一 些 高 斯 噪声 来 解释 。 我 们 称 这 种 模型 是 























简约 性 与 准确 性 











从 拟 合 的 ， 因 为 
。 通 常 ， 一 个 参数 




















它 实 在 太 简 单 了 ， 以 至 于 并 不 能 从 数据 中 获取 到 有 意义 的 模式 
很 少 的 模型 容易 出 现 欠 拟 合 。 














6.1.3 ”简洁 性 与 准确 性 之 间 的 平衡 














经 常 与 奥 卡 姆 剃刀 准则 一 起 提 到 的 是 爱 因 斯 坦 的 一 句 名 言 
简单 ， 但 不 必 过 于 简单 ” 这 就 好 像 健 康 饮食 ， 我 们 在 建 模 的 时 
平衡 。 理 想 状态 下， 我 们 希望 模型 既 不 过 拟 合 又 不 欠 拟 合 ， 因 
或 者 调整 我 们 的 模型 来 权衡 二 者 ， 具 体 做 法 有 很 多 种 ， 比 如 ， 
建 模 的 目的 看 作 是 对 数据 的 一 种 压缩 后 的 表现 ， 我 们 希望 将 数 
而 能 够 理解 数据 并 做 出 预测 。 如 果 模 型 对 数据 表示 压缩 得 非常 
一 些 细节 信息 ， 因 而 可 能 只 得 到 一 些 很 简单 的 总 结 ， 比 如 均值 













































































Ls 









































“事情 应 该 尽 可 能 
候 也 需要 保持 某 种 
此 ， 通 党 需要 优化 
我 们 可 以 将 对 数据 
据 尽 可 能 简化 ， 从 
严重 ， 那 么 会 丢失 
; 相反 ， 则 会 得 到 


大 多 噪声 ， 极 限 情 况 下 ， 我 们 得 到 的 可 能 是 没有 任何 压缩 的 数据 的 另 一 种 表示 。 









































过 拟 合 与 从 拟 合 之 间 的 平衡 可 以 从 偏差 扰动 平衡 的 角度 来 讨论 ， 我 用 一 个 例子 





来 解释 这 个 概念 。 假 设 我 们 有 一 个 模型 能 够 拟 合 数据 集中 的 每 个 点 ， 就 像 前 面 的 5 
阶 模型 一 样 。 设 想 一 下 ， 如 果 我 们 重新 取 6 个 数据 点 ， 然 后 调整 模型 以 适应 新 的 数 









































据点 ， 这 样 每 次 都 得 到 一 个 新 的 曲线 ， 如 此 重复 多 次 。 由 于 模型 可 以 拟 合 每 组 数据 


























中 的 细节 ， 因 而 我 们 的 预测 结果 会 有 很 大 的 方差 ， 我 们 称 该 模型 


























的 方差 很 大 ， 相 反 ， 


如 果 有 一 个 受 限 的 模型 ， 比 如 一 条 直线 ， 那 么 ， 它 总 是 会 试图 容纳 一 条 直线 。 一 个 



































高 偏差 的 模型 会 有 很 大 的 偏见 (如 果 用 拟人 的 方式 来 描述 的 话 )， 














或 者 说 惯性 很 大 。 








前 面 例子 中 1 阶 模型 要 比 2 阶 模型 的 偏差 更 高 而 方差 更 低 ， 后 者 会 得 到 不 同 

















的 曲线 (直线 是 其 中 的 一 个 特例 )， 总 结 如 下 。 























国 高 偏差 是 因为 模型 不 能 很 好 地 适应 数据 。 高 偏差 可 能 
到 数据 中 一 些 关 键 的 模式 ， 因 而 导致 欠 拟 合 。 

















使 得 模型 不 能 捕捉 


























国 高 方差 是 由 于 对 数据 中 的 细节 很 敏感 。 高 偏差 会 导致 
的 噪声 ， 因 而 可 能 会 导致 过 拟 合 。 


总 的 来 说 ， 如 果 提 升 一 个 方面 ， 就 会 导致 男 一 方面 下 降 ， 
























































称 之 偏差 - 方差 平衡 ， 而 我 们 最 希望 得 到 的 是 二 者 平衡 的 模型 。 





模型 捕捉 到 数据 中 














这 也 是 为 什么 人 们 
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6.2 正则 先 验 


使 用 〈 弱 ) 信息 先 验 是 给 模型 引入 偏差 的 一 种 方式 ， 如 果 引 入 得 合理 是 一 件 
好 事 ， 因 为 这 有 利于 避免 过 拟 合 。 


正则 化 的 思想 非常 强大 ， 在 贝 叶 斯 框架 之 外 也 有 许多 应 用 。 在 一 些 领域 中 ， 
这 种 思想 称 作 吉 洪 诺 夫 正 则 化 。 在 非 贝 叶 斯 统计 中 ， 对 于 最 小 二 乘法 ， 正 则 化 的 
思想 有 两 种 形式 ， 分 别 是 : 岭 回 归 和 Lasso 回归 。 从 贝 叶 斯 的 角度 来 看 ， 岭 回归 
可 以 解释 为 对 《线性 回归 中 的 ) beta 系数 使 用 了 正 态 分 布 的 先 验 ， 而 且 该 正 态 分 
布 的 标准 差 很 小 (而 不 是 习惯 上 的 很 大 )， 因 而 达到 把 beta 系数 限制 在 0 附近 的 
目的 ， 而 Lasso 回归 则 可 以 看 作 是 对 beta 系数 使 用 了 拉 普 拉 斯 先 验 。 标 准 形 式 的 
岭 回归 和 Lasso 回归 对 应 的 是 点 估计 。 如 果 严 格 应 用 贝 叶 斯 分 析 的 话 是 没 法 得 到 
后 验 分 布 的 。 


在 继续 深入 之 前 ， 我 们 先 花 点 时 间 讨 论 下 拉 普 拉 斯 分 布 。 这 个 分 布 与 高 斯 分 
布 很 像 ， 不 过 它 的 1 阶 导数 在 0 附近 没有 定义 , “因为 该 分 布 在 0 附近 有 一 个 很 尖 
锐 的 峰值 (具体 可 以 看 下 图 )。 拉 普 拉 斯 分 布 相 比 高 斯 分 布 整体 更 靠近 0， 因 而 
当 我 们 使 用 它 作 为 先 验 的 时 候 ， 会 使 得 参数 趋 近 所 0。 也 就 是 说 ，Lasso 可 以 用 
于 正则 化 和 变量 第 选 〈 将 某 些 特征 或 变量 从 模型 中 去 掉 )。 


下 面 的 代码 生成 了 4 组 中 心 为 0 的 不 同 尺度 的 拉 普 拉 斯 分 布 ， 此 外 还 有 一 个 
均值 为 零 的 标准 差 为 1 的 高 斯 分 布 作为 比较 。 

















































































































































































































































































































plt.figure (figsize= (8, 6) 
x values = np.linspace(-10, 10, 300) 
for df in [1, 2, 5, 15]: 
distri = stats.laplace (scale=df) 
x pdf = distri.pdf (x values) 
plt.plot (x values, x pdf, label='$b$ = {}'.format (df)) 


x pdf = stats.norm.pdf (x Values) 

plt.plot (x values, x_ pdf, label='Gaussian') 
plt.xlabel('x') 

plt.ylabel ('p(x)', rotation=0) 

plt.legend (loc=0, fontsize=14) 

| 的 or 

plt.savefig('B04958 06 03.png', dpi=300, figsize=[5.5, 5.5]) 








6.3 衡量 预测 准确 性 
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非常 值得 注意 的 一 点 是 ， 这 种 人 们 广泛 接受 的 正则 化 的 思想 非常 自然 地 融合 
进 了 贝 叶 斯 体系 中 。 有 人 甚至 说 ， 既 然 大 家 都 认同 正则 化 是 一 个 相当 棒 的 思想 ， 
那么 可 以 说 每 个 人 都 在 某 种 程度 上 是 贝 叶 斯 的 ， 尽 管 他 们 并 没有 意识 到 甚至 拒绝 
这 个 标签 。 









































6.2.1 正则 先 验 和 多 层 模型 


与 我 们 刚才 讨论 的 相 一 致 ， 多 层 模型 也 可 以 被 认为 是 一 种 正则 化 的 方法 。 
也 就 是 通过 引入 超 先 验 ， 将 多 层 模 型 看 作 是 从 数据 中 学 习 先 验 的 一 种 方法 。 所 
以 ， 从 某 种 意义 上 说 ， 因 为 我 们 正在 从 数据 中 学 习 先 验 ， 所 以 我 们 正在 进行 正规 
化 ， 并 且 让 数据 告诉 我 们 正规 化 的 强度 。 这 也 许 是 对 多 层 模 型 和 收缩 更 深刻 的 
理解 。 你 可 以 思考 一 下 在 第 四 章 里 当 我 们 使 用 多 层 模 型 对 单个 数据 点 拟 合 一 条 
直线 时 ， 如 何 从 正则 化 概念 的 角度 来 解释 。 



























































6.3 ”衡量 预测 准确 性 


从 前 面 的 例子 可 以 看 出 ，0 阶 的 模型 太 过 简单 ， 而 5 阶 的 模型 又 太 复 杂 ， 那 
剩 下 两 个 呢 ? 如 何 进 行 区 分 ? 我 们 需要 一 个 准则 来 同时 考虑 准确 性 和 简洁 性 。 有 


























第 6 章 模型 比较 














两 种 方法 可 以 只 使 用 样本 内 数据 来 估计 样本 外 数据 的 预测 准确 性 。 
国 交叉 验证 : 这 是 一 种 经 验 性 的 策略 ， 将 数据 分 成 多 个 子 集 ， 然 后 轮流 将 
其 中 一 个 子 集 作为 测试 集 ， 将 剩余 的 子 集 作为 训练 集 进行 评估 。 
国 信息 准则 : 一 系列 概念 的 总 称 ， 可 以 看 作 是 对 交叉 检验 的 一 种 数学 近似 。 



































6.3.1 交叉 验证 

一 般 来 说 ， 模 型 在 样本 内 的 准确 率 要 比 样本 外 高 。 由 于 我 们 同时 需要 训练 模 
型 并 测试 模型 的 性 能 ， 一 个 简单 的 做 法 是 将 数据 分 成 两 部 分 : 
于 训练 模型 的 训练 集 ; 
于 测试 模型 表现 的 测试 集 。 


如 果 有 许多 数据 的 话 ， 交 叉 验 证 是 一 种 很 好 的 方法 。 比 如 ， 唱 体 学 家 
经 使 用 这 种 方法 求解 并 验证 分 子 结构 数 十 年 了 。 不 过 如 果 数 据 不 多 的 话 ， 前 画 
这 种 做 法 可 能 不 合适 ， 因 为 这 会 进一步 减少 训练 模型 和 评估 模型 准确 性 的 有 限 
寺 息 
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为 了 绕 过 缺少 数据 的 问题 ， 一 个 非常 简单 而 且 在 大 多 数 情况 下 都 非常 有 效 
的 做 法 是 进行 交叉 验证 。 将 数据 分 成 K 份 ， 比 如 说 5 份 ， 同 时 尽 可 能 让 每 份 
数据 相同 (数据 的 个 数 以 及 数据 的 一 些 其 他 特征 ， 比 如 每 个 类 别 的 数量 )， 然 
后 使 用 其 中 的 天 -1 份 数据 用 于 训练 模型 〈 在 这 个 例子 中 是 4 份 )， 将 剩 下 的 
一 份 数据 用 于 验证 模型 。 重 复 该 过 程 K 轮 ， 每 一 轮 都 使 用 不 同 的 数据 用 于 验 
证 ， 最 后 对 每 一 轮 的 验证 结果 求 均值 。 整 个 过 程 称 作 K- 折 交 叉 验 证 ， 其 中 天 
表示 数据 拆 分 成 的 份 数 ， 在 这 个 例子 中 ， 我 们 称 为 5 折 交 叉 验证 。 当 天 与 数 
据 集 中 样本 的 个 数 相 同时 ， 我 们 称 之 为 留 一 交叉 验证 (Leave-One-Out Cross- 
Validation，LOOCV)。 有 时 候 在 做 留 一 交叉 验证 时 ， 验 证 的 轮 数 可 以 小 于 样 
本 总 数 。 


交叉 验证 是 一 个 非常 简单 而 且 强大 的 思想 ， 不 过 对 于 某 些 模型 或 者 某 些 量 很 
大 的 数据 而 言 ， 交 叉 验 证 的 计算 量 可 能 超出 我 们 能 接受 的 范围 。 许 多 人 尝试 提出 
了 一 些 其 他 更 容易 计算 的 量 ， 来 对 交叉 验证 得 到 的 结果 进行 近似 ， 或 者 应 用 到 不 
能 直接 使 用 交叉 验证 的 情况 ， 下 一 节 将 会 详细 介绍 。 






































































































































































































































6.3.2 ”信息 量 准则 





po 











6.3 衡量 预测 准确 性 











言 息 量 准则 是 一 系列 用 来 比较 模型 对 数据 拟 合 程度 的 方法 ， 这 类 方法 引入 了 


一 个 惩罚 项 来 平衡 模型 的 复杂 度 。 换 句 话说， 信息 量 准 则 形式 化 地 表示 了 我 们 在 


本 章 开 头 建立 的 一 些 直 觉 ， 用 一 种 合适 的 方式 平衡 模型 





的 复杂 程度 。 











这 些 衡量 方式 的 推导 过 程 与 信息 

















们 只 从 实用 的 角度 去 理解 这 些 概 念 。 








log 似 然 与 偏差 


一 种 衡量 模型 对 数据 的 拟 合 程度 的 方法 是 计算 模型 





的 均 方 差 。 





-D0,-E0,10) 











4 对 数据 的 解释 能 力 和 模型 














论 相 关 ， 不 过 这 超出 了 本 书 的 范围 ， 这 里 我 














预测 结果 与 真实 数据 之 间 




















其 中 ，E(yi | 外 是 根据 预 估 参 数值 得 到 的 预测 值 ， 可 以 看 到 基本 上 就 是 
观察 值 和 预测 值 之 间 的 平均 差异 ， 求 平方 是 为 了 保证 正 负 误 差 不 会 相互 抵 


消 ， 此 外 相 比 一 些 其 他 的 衡量 指标 
误差 。 











(比如 绝对 误差 )， 





该 衡量 标准 更 强调 较 大 的 























在 数据 已 经 是 正 态 分 布 的 情况 下 ， 前 面 的 衡量 方法 计算 简单 而 且 很 有 用 ， 不 
过 更 通用 的 一 种 方法 是 计算 log 似 然 : 

















log p(y|9) 

















在 一 元 线性 回归 模型 中 ，log 似 然 与 二 次 均 方差 是 成 比例 的 。 








由 于 历史 原因 ， 在 实践 中 人 们 通 


偏差 平方 和 的 量 : 





-2log p(y|0) 















































偏差 平方 和 在 贝 叶 斯 方法 和 非 贝 叶 
9 是 从 后 验 中 估计 出 来 的 《和 其 他 从 后 验 9 
在 非 贝 叶 斯 方法 中 ,9 是 一 个 点 估计 。 在 使 用 偏差 平方 和 的 时 候 ， 需 要 注意 以 下 



































如 








常 不 直接 使 用 log 似 然 ， 而 是 使 用 一 个 称 作 





斯 方法 中 类 似 ， 区 别 在 于 ， 贝 叶 斯 框架 中 
Ph 得 到 的 量 一 样 ) ， 是 一 个 分 布 。 相 反 ， 
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两 点 。 


加 偏差 平方 和 越 小 ，log 似 然 的 值 越 大 ， 模 型 的 预测 结果 与 数据 越 吻合 。 

此 我 们 希望 偏差 平方 和 越 小 越 好 。 

国 偏差 平方 和 衡量 的 是 样本 内 的 模型 准确 率 ， 因 而 复杂 的 模型 通常 会 比 简 
单 模型 的 偏差 平方 和 小 。 因 而 需要 给 复杂 模型 加 入 惩罚 项 。 


下 面 我 们 将 学 习 儿 个 不 同 的 信息 校准 方法 ， 它 们 的 共同 点 是 都 使 用 了 偏差 平 
方 和 及 正则 项 ， 区 别 在 于 偏差 平方 和 和 惩罚 项 的 计算 方式 不 同 。 


























































































































赤 池 信息 量 准则 
赤 池 信息 量 准 则 (Akaike Information Criterion，AIC) 是 一 个 广泛 应 用 的 信 
息 量 准则 ， 其 定义 如 下 : 











41C=-2log p(y | 0% ) + 2poai 


其 中 ，p,i, 表 示 参 数 的 个 数 ，0,,, 是 9 的 最 天 似 然 估计 。 最 大 似 然 估计 在 非 贝 

叶 斯 方法 中 经 常用 到 ， 等 价 于 使 用 贝 叶 斯 方法 中 的 均匀 先 验 的 最 大 后 验 估计 。 注 
意 这 里 ,是 点 估计 而 不 是 分 布 。 前 面 的 表达 式 可 以 表示 成 如 下 形式 : 

AIC= —2(log p(y | Oo) 一 了 xc ) 


同样 ， 这 里 的 -2 是 出 于 历史 原因 。 从 实用 的 角度 来 看 ， 上 式 中 的 第 1 项 考 
虑 的 是 模型 对 数据 的 拟 合 效果 ， 第 2 项 衡量 的 是 模型 复杂 度 。 因 此 ， 如 果 两 个 模 
型 对 数据 的 解释 能 力 相 同 ， 但 是 其 中 一 个 比 另 一 个 的 参数 更 多 的 话 ，AIC 会 告诉 
我 们 应 该 选择 参数 更 少 的 那个 。 


AIC 对 于 非 贝 叶 斯 方法 来 说 很 有 用 ， 但 是 对 于 贝 叶 斯 方法 可 能 会 有 些 问 
题 。 原 因 之 一 是 AIC 没有 使 用 后 验 ， 因 而 将 估计 中 的 不 确定 信息 丢失 了 ， 此 
外 假设 用 到 的 是 均匀 先 验 ， 因 而 该 准则 对 于 使 用 非 均 匀 先 验 的 模型 来 说 就 不 
大 合适 了 。 在 使 用 非 均 匀 先 验 的 时 候 ， 我 们 不 能 简单 地 计算 模型 中 参数 的 个 
数 。 合 理 使 用 非 均 匀 先 验 相 当 于 对 模型 使 用 了 正则 ， 因 而 会 降低 过 拟 合 的 可 
能 ， 也 就 是 说 带 正则 模型 的 有 效 参 数 个 数 比 真实 的 参数 个 数 要 少 。 类 似 的 情 
况 在 多 层 模型 中 同样 会 出 现 ， 毕 竞 多 层 模 型 可 以 看 作 是 从 数据 中 学 习 先 验 的 
有 效 方式 。 




































































































































































































































































偏差 信息 量 准 则 














一 种 获取 贝 叶 


数据 中 估计 出 参数 的 个 数 ， 这 可 以 月 


Criterion，DIC) 来 衡量 : 


—2x log p(y| Ou) 疝 2 piic 














6.3 衡量 预测 准确 性 








斯 形式 的 AIC 的 方法 是 从 后 验 中 获取 信息 ， 同 时 从 模型 和 


月 偏差 信息 量 准则 (Deviance Information 


可 以 看 到 DIC 和 AIC 非常 像 ， 区 别 在 于 现在 是 从 0 计算 的 偏差 ， 即 9 














的 后 验 均值 ， 而 
表示 : 











上 式 的 含义 是 人 


我 们 现在 使 用 Puc 来 代表 模型 的 














验 ，0 聚集 在 6 附近， 那么 上 式 中 





反 ， 如 果 后 验 分 布 
也 就 很 大 。 











1 效 参数 个 数 ， 








D(0) - D(O) 
i 差 的 均值 减 去 均值 的 偏差 。 如 果 得 到 的 是 一 个 
































民 广 ， 那 么 会 





的 左右 两 项 会 比较 相似 ， 因 
更 多 的 偏离 0， 























峰值 的 后 
而 Pu 会 很 小 相 

















j 下 式 来 








因而 DD(9) 会 很 大 ， 从 而 py 


可 以 说 ，DIC 是 更 偏 贝 叶 斯 形式 的 AIC， 不 过 ，DIC 没有 使 用 完整 的 后 验 ， 





而 且 对 于 弱 先 验 来 说 ， 林 



































据 DIC 计算 得 到 的 参数 的 有 效 个 数 会 有 些 问题 ， 





为 了 解 


决 这 个 问题 ， 有 一 些 替 代 方 案 。 不 过 DIC 对 于 这 里 的 讨论 来 说 足够 了 ，PyMC3 
中 也 已 经 实现 了 DIC。 


通用 信息 量 准则 


通用 信息 量 准则 (Widely Available Information Criterion，WAIC) 与 DIC 类 














似 ， 不 过 更 偏 贝 叶 斯 ， 因 为 它 使 月 


























的 是 整个 后 验 分 布 。 和 AIC、DIC 一 样 ， 我 们 














可 以 看 到 WAIC 同样 有 两 项 ， 一 项 衡量 模型 对 数据 的 拟 合 效果 ; 另外 一 项 衡量 模 

















型 的 复杂 程度 。 

















WAIC = 2Ippd + 2 pic 


这 里 ppd 是 点 预测 的 ltg， 可 以 用 下 式 近似 : 


ppd = Plos( SE pO, 0)] 
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这 里 首先 从 后 验 中 采样 8 个 样本 并 计算 似 然 的 均值 ， 然 后 对 于 数据 集中 的 和 

个 数据 点 都 重复 该 过 程 并 求 和 。 此 外 得 到 的 有 效 参 数 个 数 可 以 用 如 下 形式 计算 : 
Pwaic 本 3 (log p(y; | 0° )) 

也 就 是 说 ， 我 们 根据 从 后 验 中 得 到 的 5 个 采样 值 计算 log 似 然 的 偏差 ， 然后 
对 个 数据 点 都 重复 该 过 程 并 求 和 。 直 观 上 看 这 似乎 与 DIC 中 计算 有 效 参数 个 
数 的 方法 一 样 。 在 前 面 AIC 部 分 讨论 过 ， 模 型 越 灵 活 ， 就 越 倾向 于 得 到 分 布 更 
广 《 更 分 散 ) 的 后 验 。 













































































帕 累 托 平 滑 重要 性 采样 与 留 一 交 义 验证 

该 方法 用 于 近似 LOOCY 的 结果 ， 不 过 不 需要 真 的 计算 LOOCV。 这 里 不 过 
多 深入 其 细节 ， 其 核心 思想 是 通过 对 似 然 重 采样 去 近似 LOOCV， 可 以 通过 一 种 
重要 性 采样 的 技巧 实现 。 该 方法 的 问题 是 得 到 的 结果 不 稳定 ， 为 了 解决 稳定 性 的 
问题 ， 有 人 提出 了 一 种 新 的 方法 叫做 PSIS， 可 以 用 于 计算 更 可 靠 的 LOOCYV 估 
计 ， 其 含义 类 似 ， 值 越 小 ， 模 型 得 到 的 估计 预测 准确 率 越 高 。 

































































一 二 








贝 叶 斯 信息 准则 

与 逻辑 回归 的 名 字 一 样 ， 这 个 名 称 同 样 有 误导 性 。- 贝 叶 斯 信息 准则 〈Bayesian 
Information Criterion，BIC) 是 用 来 校正 AIC 的 一 些 问题 的 ， 作 者 提出 了 一 种 贝 
叶 斯 校正 方法 。 不 过 BIC 实际 上 不 是 贝 叶 斯 的 方法 ， 而 是 更 像 AIC， 因 而 假设 先 
验 是 平坦 的 并 使 用 最 大 似 然 估 计 。 

更 重要 的 是 ，BIC 与 我 们 见 过 的 其 他 信息 准则 都 不 一 样 ， 它 更 像 后 面 章节 中 
会 讨论 到 的 贝 叶 斯 因子 。 基 于 这 些 理由 ， 同 时 参考 了 Andrew Gelman 的 建议 ， 这 
里 暂 不 深入 讨论 或 使 用 BIC。 







































































































































































6.3.3 用 PyMC3 计算 信息 量 准则 
通过 PyMC3 可 以 很 容易 计算 出 信息 准则 ， 只 需要 调用 一 个 函数 即 可 。 为 了 
简化 它们 的 使 用 ， 我 们 将 构建 一 个 简单 的 模型 ， 首 先 定义 一 些 数据 并 标准 化 。 












































real alpha = 4.25 
real beta = [8.7, -1.2] 
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data size = 20 

noise = np.random.normal (0, 2, size=data size) 

x 1 = np.linspace(0, 5, data size) 

Yy_1 = real alpha + real beta[0] * x 1 + real beta[1] * x 1**2 + noise 
order = 2 

x_1lp = np.vstack ([x_1**i for i in range(1l, order+1)]) 

XxX_ls = (x_ lp - x_ lp.mean(axis=1l, keepdims=True))/x lp.std(axis=1, 


keepdims=True) 





yls= (yl -yl.mean())/y_l1.stdl() 
plt.scatter (x 1s[0], y_1s) 

plt.xlabel ('$x$', fontsize=14) 
plt.ylabel('$y$', fontsize=14, rotation=0) 


-2.0 . 


2550 -Ls -10 -05 0.0 0.5 1.0 1.5 2.0 


从 图 中 可 能 看 得 不 是 特别 明显 ， 不 过 从 代码 中 可 以 看 到 ， 我 们 得 到 的 数据 可 以 
] 二 阶 多 项 式 去 拟 合 。 假 设 我 们 有 理由 认为 线性 回归 是 一 个 不 错 的 模型 ， 因 此 我 
们 分 别 使 用 两 个 模型 去 拟 合 数 据 并 用 信息 准则 比较 它们 ， 先 从 线性 回归 模型 开始 。 
















































































with pm.Model() as model 1: 





alpha = pm.Normal ('alpha', mu=0, sd=10) 
beta = pm.Normal ('beta', mu=0, sd=10) 
epsilon = pm.HalfCauchy('epsilon', 5) 
mu = alpha + beta * x 1s[0] 
y_pred = pm.Normal('y pred', mu=mu, sd=epsilon, observed=y _ 1s) 
trace 1 = pm.sample (2000) 
chain 1 = trace 1[100:] 
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I 





为 了 节省 版 面 ， 这 里 我 们 省 略 了 traceplot 以 及 一 些 其 他 画图 测试 的 内 
容 ， 不 过 你 自己 实现 的 时 候 可 别 省略 了 这 部 分 内 容 ， 接 下 来 继续 用 二 阶 模型 去 
拟 合 。 





with pm.Model() as model p: 
alpha = pm.Normal('alpha', mu=0, sd=10) 
beta = pm.Normal ('beta', mu=0, sd=10, shape=x_ ls.shape[0]) 
epsilon = pm.HalfCauchy('epsilon', 5) 
mu = alpha + pm.math.dot (beta, x 1s) 
y_pred = pm.Normal('y pred', mu=mu, sd=epsilon, observed=y 1s) 
trace p = pm.sample(1000) 

chain p = trace p[100:] 


现在 我 们 将 结果 和 最 佳 拟 合 直线 画 出 来 。 


alpha 1 post = chain 1['"alpha'].mean() 

betas 1 post = chain 1['beta'].mean(axis=0) 

idx = np.argsort (x _1s[0]) 

y_l post = alpha 1 post + betas 1 post * x 1s[0] 
plt.plot (x 1s[0] [idx], y_l1 post[idx], laber="PTimear') 
alpha p_post = chain pl['alpha'] .mean() 

betas p post = chain pl'beta'] .mean (axis=0) 

y_p post = alpha p post + np.dot (betas p post, Xx ‘Ys) 
plt.plot (x 1s[0] [idx], yp post[lidx], label#PO¥ ordgr {}'.format (order)) 
plt.scatter (x 1s[0], y_1s) 

plt.legend () 





2.0 
— Linear 
—— Polorder2 





-20 = -0 -05 0.0 0.5 1.0 1.5 2.0 





想 要 





的 位 置 发 生 在 with 语句 内 ， 那 么 对 应 的 模型 参数 会 自 
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示 指 定 : 


pm.dicl(trace=trace 1, model=model 1) 


同样 ， 要 计算 WAIC 调用 pm.waic() 即 可 ， 计算 LOO 则 只 需 调用 
pm.1o00()。 对 于 WAIC 和 LOO，PyMC3 会 返 
差 ， 我 们 可 以 用 标准 差 来 评估 WAIC (或 LOO) 估计 的 不 确定 性 。 不 过 需 
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] PyMC3 得 到 DIC， 我 们 需要 将 迹 作为 参数 传 给 dic 函数 ， 如 果 调 用 
动 猜 出 来 ， 当 然 也 可 以 显 


一 个 点 估计 和 相应 的 标准 








型 


注意 的 是 ， 由 于 标准 差 的 估计 值 假设 是 正 态 的 ， 因 此 当 样 本 量 很 小 的 时 候 不 




















是 很 可 靠 。 


二 


lt.figure (figsize= (8, 4)) 
lt subeLot(121) 


for idx, ic in enumerate( (waic 1, waic p)): 





plt.errorbar (ic[0], idx, xerr=ic[1], fmt='lbo') 


plt.title('WAIC') 
Bltsyticeks( [lO Ll [Ill1near' ouadratler]) 
Lt ys 2) 
Blt.subpBlot (122) 
for idx, ic in enumerate((loo 1, loo p)): 
plt.errorbar (ic[0], idx, xerr=ic[1], fmt='go') 
plt.title('LOO') 
Slt yticks( [0 lly [Linear's "cuadratle"]) 
从 二 志和 二 证 二 二 > 疙 3 
plt.tight layout() 
WAIC LOO 
quadratic 一 一 一 一 一 quadratic 一 一 一 0 一 一 一 
linear 一 一 一 一 一 linear 一 一 
25 30 5 40 45 50 24 26 28 30 32 34 36 38 40 42 
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下 面 讨论 一 下 关于 WAIC 和 LOO 计算 结果 的 可 靠 性 。 


计算 WAIC 或 LOO 时 ， 
可 能 是 不 可 靠 的 。 
) 














不 
迹 


笨 


用 


得 到 警 








管 如 如 果 你 
了 较 好 的 混合 


EE 


串 ， 




















条 区 


你 可 能 会 得 到 这 样 一 条 警 








该 警告 会 根据 一 个 经 验 性 的 值 抛 出 
尽管 这 不 是 多 大 的 问题 ， 





不 过 它 可 











上 











K- 折 交 叉 验 证 。 











使 用 更 鲁 棒 的 模型 ， 比 奴 





6.3.4 ”解释 和 使 用 信息 校准 


并 





计算 出 了 完整 的 后 验 分 布 却 只 保留 了 后 验 的 均值， 
论 过 于 自信 。 











三 | 











言 息 校准 的 


个 简 














j 是 进 





二 


单 应 














忽略 其 他 模型 


ae Ar 














模型 选择 非 


4 即 可 ， 因 而 我 们 FF 
量 标准 都 认为 最 好 的 模型 是 2 阶 的 模型 。 


， 但 是 这 里 我 人 





常 简 单 


























另 一 种 做 法 是 进行 








能 意味 着 计算 过 程 中 存在 问题 。 
和 LOO 相对 较 新 ， 我 们 可 能 还 需要 构建 一 些 合适 的 方法 得 到 它们 的 可 靠 性 。 
遇 到 这 种 情况 ， 首 先 确保 你 有 足够 多 的 样本 ， 同 时 模型 
度 ， 然 后 是 查看 是 否 选 用 了 一 个 “老化 ”的 值 。 如 果 
LOO 的 作者 建议 
如 果 这 些 建议 都 没有 效果 ， 那 么 你 可 能 


行 模型 选择 ， 直 接 选 出 信息 
] 以 根据 前 面 的 那些 图 表 得 出 以 下 


] 抛 掉 子 不 确定 性 信息 ， 


告 信息 : 二 者 的 计算 结 
( 妆 才 本 志 深入 闻 计 和 
WAIC 








的 


三 | 


你 是 


小 





还 


上 用 分布 蔡 换 高 斯 分 布 。 
需要 考虑 一 些 其 他 方法 ， 





























比如 直接 使 

















准则 值 较 小 的 模型 


结论 : 两 种 衡 



































~ 

































































| 








模型 选择 的 同时 ， 汇 报 和 讨论 不 同 模型 的 信息 准则 值 以 














及 后 验 预 测 检查 的 结果 。 将 问题 中 的 背景 、 数 据 和 检查 都 分 享 出 来 很 关键 ， 因 为 
le 如 果 你 在 学 术 界 ， 你 可 以 在 论 
文 、 演 示 等 讨论 部 分 按照 这 种 方式 进行 

另外 一 种 方法 是 进行 模型 平均 ， 其 思想 是 对 每 个 模型 加 权 之 后 生成 一 个 元 模 
型 。 计 算 权 重 的 一 种 方式 是 : 








是 第 i 个 











这 里 dIC; 








exp(—1/24d1C.;) 
Dy exp(-1/2d1C,) 





言 奶 准则 的 值 与 最 小 值 之 间 的 差 。 





6.3 衡量 预测 准确 性 











我 们 可 以 根据 任意 信息 准则 计算 出 一 系列 权重 ， 不 过 我 们 显然 不 能 将 其 混合 
在 一 起 。 上 面 的 公式 是 一 种 启发 式 的 方法 ， 根 据 信息 准则 的 值 计算 每 个 模型 的 相 
对 概率 ， 其 中 的 分 母 仪 仅 是 一 个 归 一 项 ， 使 得 所 有 权重 之 和 为 1。 


还 有 一 些 其 他 方式 对 模型 求 平均 ， 比 如 显 式 的 构建 一 个 模型 将 我 们 所 有 的 模 
型 包含 在 一 起 ， 然 后 进行 参数 推断 ， 在 后 面 贝 叶 斯 因子 部 分 ， 我 们 将 讨论 其 中 的 
一 种 形式 。 


除了 对 离散 的 模型 求 平 均 之 外 ， 有 时 候 我 们 还 可 以 将 其 看 作 是 连续 的 。 
一 个 简单 的 例子 就 是 ， 假 设 我 们 有 一 个 抛 硬币 问题 以 及 两 个 不 同 的 模型 ， 其 
中 之 一 的 先 验 偏向 正面 朝 上 ， 男 一 个 偏向 于 反面 朝 上 。 我 们 可 以 分 别 用 两 个 
模型 去 拟 合并 用 dIC 权重 求 平均 ， 除 此 之 外 还 可 以 构建 一 个 分 层 模型 估计 先 
验 分 布 ， 注 意 这 里 构建 的 不 再 是 两 个 离散 的 模型 了 ， 而 是 一 个 连续 的 模型 ， 
其 中 包含 两 个 离散 的 模型 作为 特例 。 哪 种 方法 更 好 呢 ?” 还 是 要 具体 问题 具体 
分 析 ， 最 终 使 用 哪 一 个 取决 于 实际 问题 是 更 适合 用 离散 模型 还 是 连续 模型 去 
描述 。 






















































































































































































6.3.5 后 验 预测 检查 

前 面 几 章 中 ， 我 们 介绍 了 后 验 预测 检查 的 概念 ， 并 将 其 作为 评估 模型 对 数据 
的 解释 能 力 的 一 种 方式 ， 我 们 称 之 为 完备 性 检查 。 进 行 后 验 预 测 检查 的 目的 并 不 
是 为 了 说 模型 是 错 的 ， 我 们 的 目的 是 想 知道 哪 部 分 数据 拟 合 得 不 够 好 ， 从 而 知道 
模型 的 极限 在 哪 或 者 如 何 优化 模型 。 这 里 我 们 重新 回顾 这 个 话题 ， 以 此 强调 后 验 
预测 检查 可 以 用 来 比较 模型 并 理解 模型 之 间 的 不 同 点 。 


Lt saulot(L2l) 



























































lt.scatter(x 1s[0], y_ ls, c="'r'); 
PtsyLlimi(=3 3) 

It.xlabel('x') 

It.ylabel('y', rotation=0) 





i 


It.title('Linear') 
for i in range(0, lenl(chain l['alpha']), 50): 

plt.scatter (x_1ls[0], chain 1['alpha'][il + chain l['beta'] [i]*x ls[0]， 
', edgecolors='g', alpha=0.05); 


O 
| 
QQ 


Blt。 .Blot(x._ lsl[l0l; "chain ll"'alpha'l]l mean() + ‘chain Ll'beta’]: 
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mean()*x 1s[0], c='g', alpha=1) 


.SUBDBLOt (122) 

It-.soatter(x Lsl0]; Y. ls c="'r')} 
ylim(=3 3) 

It.xlabel ('x') 

.ylabel('y', rotation=0) 





ge 
rr rd rd rd r 


.title('Order {}'.format (order)) 
EOE Ln Tange(0 lenmn(chnaln pl "alpha’l); S00): 
Blt-scatter(x ls[l0Q], chain Bl"alpha ill + nevaot (ehain Bl'beta ll|[tly 
x _ 1s), c='g', edgecolors='g', alpha=0.1) 
idx = np.argsort (x_1) 
plt.plot (x Ls[0] [idx]; alpha p post + np.dot'(betas p post, x.18) [idx|]s 
c='g', alpha=1) 





Linear Order 2 
3 
pr 
1 
?0 
-1 
-2 
-3 -3 
“0 3 = 0 0 5 1.0 1.5 20 .=20° =1s =10.. 5 M0. 0 1.0 15 2.0 


6.4” 贝 叶 斯 因子 


在 贝 叶 斯 的 世界 中 ， 评 估 和 比较 模型 的 另 一 种 方式 是 使 用 贝 叶 斯 因子 。 


使 用 贝 叶 斯 因子 时 ， 在 单个 模型 中 可 能 存在 菜 些 先 验 对 后 验 分 布 没有 实际 影 
啊 ， 但 却 对 贝 叶 斯 因子 有 较 大 影响 。 前 面 的 例子 中 你 可 能 注意 到 了 ， 通 向 一 个 标 
































6.4 贝 叶 斯 因子 











准 差 为 100 的 正 态 先 验 与 标准 差 为 1000 的 正 态 先 验 对 后 验 的 效果 差不多 ， 而 贝 
叶 斯 因子 则 会 受到 模型 中 这 类 变化 的 影响 。 贝 叶 斯 因子 的 另外 一 个 问题 是 计算 起 
来 可 能 要 比 推 肠 过 程 更 复杂 。 最 后 一 点 是 ， 贝 叶 斯 因子 可 以 用 来 做 假设 检验 ， 这 
本 来 不 是 什么 问题 ， 不 过 许多 作者 指出 ， 类 似 本 书 提 到 的 基于 模型 和 推断 的 思 
维 ， 要 比 基 于 假设 检验 的 这 类 思维 在 大 多 数 问题 上 更 好 。 为 了 更 好 地 理解 什么 是 
贝 叶 斯 因子 ， 这 里 我 们 再 
























































4 



























































EE 新 写 一 遍 贝 叶 斯 理论 : 





jm 











p(y10)p(0) 
p(y) 


其 中 ，y 表示 数据 ，9 表示 参数 ， 你 也 可 以 写成 如 下 形式 : 


p(0|y)= 








10, M)p(0|M) 
p(y|M) 

两 个 式 子 的 唯一 区 别 是 : 重 写 后 的 式 子 中 显 式 地 描述 了 推断 过 程 中 依赖 的 
模型 M。 其 中 分 母 称 为 证 据 或 者 边缘 似 然 。 目 前 为 止 ， 得 益 于 推断 引擎 〈 如 
Metropolis 和 NUTS ) ， 我 们 将 这 一 项 省 略 了 。 这 里 可 以 将 证 据 表 示 成 如 下 : 


jelninys2e 

































































pO,M)= {p10,M)p(O1M)dO, 














也 就 是 说 ， 为 了 计算 出 证 据 p(y|MM)， 我 们 需要 边缘 化 (通过 求 和 或 者 积分 ) 
所 有 可 能 的 P(91M)， 即 根据 给 定 模 型 边缘 化 所 有 0 的 先 验 。 

p(y1M) 本 身 没 有 多 少 信 息 量 ， 就 像 信 息 准则 一 样 ， 重 要 的 是 其 相对 值 ， 因 此 ， 
当 我 们 希望 比较 两 个 不 同 模型 的 时 候 ， 我 们 会 计算 其 证 据 的 比例 ， 从 而 得 到 贝 叶 斯 
因子 : 































































































Br < PYIMo) 
p(y|Mi) 
当 BF > 1 时， 模型 0 比 模型 1 对 数据 解释 得 更 好 。 有 人 总 结 出 了 下 面 的 列 
表 来 表示 模型 0 与 模型 1 的 对 比 。 
国 1-3: 微弱 
国 3-10: 中 等 
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10-30: 
30-100: 
>100: 


注意 ， 这 些 准 则 都 是 一 些 经 验 性 的 指导 ， 最 终结 果 一 定 要 放 在 








模型 比较 


强 
很 强 
非常 强 
































具体 场景 中 





























的 结论 。 得 出 结论 所 需 的 说 





























同时 还 应 该 给 出 足够 多 的 信息 方便 别人 检查 ， 从 而 确 
F 据 在 不 同 场合 下 是 不 一 样 的 。 





定 古 否 同意 我 们 


比如 说 你 是 在 做 粒 





子 物 理学 ， 或 是 在 法 庭 上 ， 又 或 者 是 决定 是 否 要 撤离 一 个 城镇 以 防止 数 百 人 


死亡 。 


6.4.1 类 比 信息 量 准则 


如 果 对 贝 叶 
样 比较 边缘 似 然 就 与 前 面 比 较 信 息 准 则 类 似 了 。 不 过 ， 衡 量 








斯 因 






































子 求 log， 我 们 可 以 将 两 个 边缘 似 然 的 比值 转换 成 做 差 ， 这 
模型 对 数据 的 拟 合 程 











度 的 项 以 及 惩罚 项 去 哪儿 了 呢 ? 前 者 包含 在 了 似 然 的 部 分 ， 而 后 者 是 对 先 验 取 平 
均 的 部 分 。 参 数 越 多 ， 先 验 空间 相 比 似 然 就 越 大 ”因而 平均 之 后 似 然 就 会 较 低 ， 








而 且 参 数 越 多 ， 

















么 人 们 说 贝 叶 


斯 理论 会 很 

















姆 剃刀 。 


6.4.2 


贝 叶 斯 因子 的 计算 可 以 视 作 分 层 模型 的 应 用 ， 











计算 贝 叶 斯 因子 















































先 验 就 会 越 分 散 ， 因 而 在 计算 证 据 的 时 候 惩罚 越 大 。 这 也 是 为 什 
自然 地 惩罚 更 复杂 的 模型 二 或 者 称 贝 叶 斯 理论 自 带 奥 卡 





其 中 高 层 的 参数 可 以 看 作 是 从 





一 个 类 别 分 布 中 采样 后 将 序号 赋 给 每 个 模型 。 换 句 话说， 我 们 同时 对 两 个 《或 多 











个 ) 模型 i 








等 式 右边 的 第 一 项 称 作 后 验 相对 可 能 性 








行 推断 ， 同 时 有 
样 次 数 正比 于 p(M | 7)， 为 了 计算 贝 叶 斯 因 

















p(y|IMo) _ p(Mo |y)p(M') 





p(y|Mi) 








一 下 前 面 我 们 对 相对 可 能 愧 











论 将 p(y 


里 再 次 以 抛 硬 


M0) 和 p(y| M1) 展开 后 相 除 即 可 


问题 为 例 。 





Pp(M'i |D)P(Co) 








Ee， 第 2 项 称 作 先 验 相对 可 





日 一 个 离散 的 变量 在 模型 之 间 做 选择 。 对 每 个 模型 的 采 
子 ， 我 们 有 下 式 ; 


能 性 。 回 忆 





的 定义 。 如 果 你 好 奇 等 式 是 怎么 来 的 ， 根 据 贝 叶 斯 理 











。 为 了 展示 贝 叶 斯 因子 的 计算 过 程 ， 


这 








coins = 30 
heads = 9 


y= np.repeat ([0, 1], [coins-heads, 





用 Kruschke 图 将 我 们 的 模型 





heads]) 





了 两 个 beta 先 验 : 一 个 趋 近 于 


使 月 








于 0; 另 


个 趋 近 于 1。 


,J 





~ 


I 
beta 


四 


注意 这 里 我 们 计算 贝 叶 斯 因子 时 比较 的 是 模型 之 
型 之 间 的 似 然 或 者 两 者 同时 都 有 可 能 
PyMC3 构建 模型 。 为 了 切换 先 验 ， 我 们 使 
数 的 第 一 个 参数 为 0， 则 返回 第 














| 


| 


2 个 参数 ， 


不 同 ， 





下 


























了 pm.switch() 








否则 返回 第 3 个 参数 。 这 








有 pm .math.eq() 函数 去 检查 model index 变量 是 否 为 0。 





with pm.Model() as model BF: 
P = np.array([0.5, 0.5]) 





model index = pm.Categorical('model index', p=p) 


m0 = (4, 8) 
m1 = (8, 4) 


m= pm.switch (pm.math.egq(model index, 0), m 0, m 1) 


theta = pm.Betal('theta', m[0], m[1]) 


y = pm.Bernoullil('y', theta, observed=y) 


trace BF = pm.sample(5000) 


chain BF = trace BF[500: 


pm.traceplot (chain BF) 


] 


6.4 


间 先 验 的 不 同 ， 
本 质 上 思想 是 一 致 的 。 接 下 来 用 








贝 叶 斯 因子 








I 表示 出 来 ， 如 图 所 示 ， 这 个 例子 中 ， 我 们 选用 


当然 ， 模 




















如 果 该 函 











我 们 同样 
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index 
s1.0 
0.8 
量 
2 0.6 
廊 04 
a 
6 
5 
4 
3 
2 
4 






Ey 


1000 1500 2000 2500 3000 3500 4000 4500 
pa theta 


Frequency 





1 0.2 0.3 0.4 0.3 0.6 四 1 500 1000 1500 2000 2500 3000 3500 4000 4500 








现在 我 们 可 以 通过 变量 model index 计算 贝 叶 斯 因子 ， 注 意 我 们 已 经 有 了 每 
个 模型 的 先 验 : 
PM1 chain BF['model index'] .mean() 


pMO 业 过 BML 
BF = (PMO/pM1)*(p[1]/p[0]) 


最 终 得 到 的 贝 叶 斯 因子 的 值 约 为 11， 也 就 是 说 ， 我 们 更 倾向 于 使 用 模型 0。 
这 个 结论 完全 合理 ， 因 为 对 于 9 = 5 的 情况 ， 正 面 朝 上 出 现 得 更 少 ， 两 个 模型 之 间 
的 唯一 区 别 是 模型 0 更 适用 于 6 < 0.5( 反 面 朝 七 多 于 正面 朝 上 )， 而 模型 1 更 适 
用 于 6 > 0.5〈 正 面 朝 上 多 于 反面 朝 上 )。 


下 面 讲 一 下 计算 贝 叶 斯 因子 的 一 些 常 见 问题 。 


用 我 们 定义 的 方式 计算 贝 叶 斯 因子 会 有 一 些 问题 ， 比 如 当 其 中 一 个 模型 比 另 一 个 模 
型 更 好 时 ， 根 据 定义 ， 我 们 会 对 更 好 的 这 个 模型 采样 次 数 更 多 ， 这 可 能 会 导致 我 们 对 
男 外 一 个 模型 欠 采 样 。 男 外 ， 第 1 个 问题 是 : 即使 某 些 参数 没有 用 于 拟 合 数据 ， 也 会 
更 新 。 也 就 是 说 ， 当 模型 0 被 选择 时 ， 模 型 1 中 的 参数 也 会 更 新 ， 不 过 由 于 这 部 分 参 
数 并 没有 用 于 解释 数据 ， 值 受 限 于 先 验 。 如 果 先 验 太 模糊 ， 有 可 能 当 我 们 选 到 模型 1 
时 ， 参 数值 距离 上 一 次 被 接受 的 值 太 远 了 ， 因 而 该 步 被 拒绝 ， 从 而 导致 采样 会 出 现 问题 。 
为 了 避免 遇 到 这 些 问题 ， 我 们 对 模型 做 了 两 处 修改 来 改进 采样 过 程 。 
国 理想 情况 下 , 如 果 两 个 模型 都 访问 相同 次 数 , 我 们 会 得 到 一 个 更 好 的 采样 ， 
因此 我 们 对 模型 的 先 验 做 出 调整 《前 一 个 模型 中 的 p 值 )， 从 而 向 原来 
访问 频次 较 低 的 模型 倾斜 。 这 个 过 程 对 贝 叶 斯 因子 的 计算 不 会 有 多 大 影 
响 ， 因 为 我 们 在 计算 过 程 中 包含 了 先 验 。 

国 根据 Kruschke 以 及 其 他 人 的 建议 ， 可 以 使 用 伪 先 验 ， 其 思想 很 简单 : 
当 没 被 选择 的 模型 的 参数 出 现 自由 漂移 时 ， 可 以 尝试 手动 限制 它们 ， 不 
















































































6.5 ” 贝 叶 斯 因子 与 信息 量 准则 











过 是 在 这 个 模型 没 被 使 用 的 时 候 。 你 可 以 在 Kruschke 的 书 中 找到 使 用 
伪 先 验 的 例子 ， 我 将 对 应 的 例子 转 成 了 Python/PyMC3， 可 以 查看 这 里 
https://github.com/aloctavodia/Doing bayesian data analysis。 


6.5 ” 贝 叶 斯 因子 与 信息 量 准 则 
前 面 我 们 已 经 说 过 ， 贝 叶 斯 因子 对 先 验 过 于 敏感 ， 做 推断 时 菜 些 参数 对 推断 
结果 几乎 没有 影响 ， 但 得 到 的 贝 叶 斯 因子 却 有 很 大 区 别 。 这 也 是 许多 贝 叶 斯 学 派 
的 人 不 喜欢 贝 叶 斯 因子 的 原因 之 一 。 现在 我 们 来 看 一 个 例子 ， 帮 助 我 们 理解 什 
么 是 贝 叶 斯 因子 以 及 信息 准则 。 回 到 抛 硬 币 例子 中 定义 数据 的 部 分 ， 现 在 我 们 将 
硬币 数量 设 为 300 个 ，90 个 正面 朝 上 。 这 个 比例 与 之 前 的 类 似 ， 不 过 现在 的 数 
据 量 是 之 前 的 10 倍 ， 然 后 单独 运行 每 个 模型 。 


with pm.Model() as model BF 0: 


















































theta = pm.Beta('theta'， 4, 8) 
y = pm.Bernoulli('y', theta, observedq=y) 


trace BF 0 = pm.sample(5000) 
chain BF 0 = trace BF 0[500:] 
pm.traceplot (trace BF_ 0); 


theta 


全 


with pm.Model() as model BF 1: 
theta = pm.Betal('theta', 8, 4) 





Frequency 
a value 





y = pm.Bernoulli('y', theta, observed=y) 
trace BF 1 = pm.sample(5000) 
pm.traceplot (trace BF 1); 


theta v0.45 theta 
至 | 豆 0.40 
3 2 2 0.35 
可 全 0.30 
应 0.25 
0.20 


0 500 1000 1500 2000 2500 3000 3500 4000 4500 

对 后 验 进行 检查 ， 尽 管 二 者 的 先 验 不 同 ， 可 以 看 到 两 个 模型 的 预测 结果 很 相 
似 。 原 因 是 我 们 有 足够 的 数据 ， 从 而 将 先 验 的 效果 削弱 了 《尽管 效果 还 在 )。 现 
在 对 两 个 模型 计算 贝 叶 斯 因子 ， 可 以 得 到 结果 约 为 23， 这 个 结果 意味 着 我 们 更 
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倾向 于 模型 0。 可 以 看 出 ， 当 我 们 增加 

















明显 了 ， 这 一 点 完全 合理 ， 
设 与 实际 的 数据 不 符 。 不 过 需要 注意 ， 
向 于 得 
0 做 预测 























， 那 么 两 个 模型 其 实 没有 





出 相同 的 96 值 ， 实 际 上 两 个 模型 得 到 的 值 都 接近 0 
特别 大 的 




















当 我 们 增加 数据 的 时 候 ， 





在 这 








区 别 。 








诉 我 们 一 个 模型 要 比 另外 一 个 模型 更 好 ， 
型 ， 不 过 如 果 只 是 根据 两 个 模型 估计 出 来 的 参数 做 预测 ， 


再 比较 下 WAIC 和 LOO (如 图 );， 模 型 0 和 模型 
和 368.6，LOO 分 别 约 为 366.4 和 366.7。 








的 是 在 30 个 硬币 中 应 该 有 








9 个 正面 朝 上 的 情况 下 ， 









































二 者 的 结果 差不多 。 





直观 上 看 区 别 似乎 很 小 ， 


























数据 个 数 的 时 候 ， 不 同 模型 之 间 的 对 比 更 
因为 数据 更 多 的 时 候 ， 我 们 更 加 确定 模型 1 的 先 验 假 
两 个 模型 都 倾 
3。 因 此 ， 如 果 打 算 用 
个 例子 中 ， 贝 叶 斯 因子 告 
某 种 程度 上 是 在 帮助 我 们 找到 真正 的 模 





1 的 WAIC 分 别 约 为 368.4 
不 过 重要 
模型 0 和 模型 1 的 WAIC 


分 别 为 38.1 和 39.4，LOO 分 别 为 36.6 和 38.0。 也 就 是 说 ， 相 对 差别 随 着 数 
ee 0 的 估计 值 越 相似 ， 根 据 信息 准则 得 到 的 预测 准确 率 的 





























结果 也 越 相 似 。 这 个 例子 应 该 能 澄清 














30 个 样本 中 9 次 正面 朝 上 的 情况 ; 
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355 360 365 370 375 


贝 叶 斯 因子 与 信息 


下 图 显示 了 WAIC 和 LOO 以 及 它们 的 标准 差 ， 
第 2 行 对 应 300 个 样 

















昌 准 则 之 间 的 区 别 了 。 














LOO30 9 


model 1 
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LOO 300 90 


model_1 一 一 一 一 一 一 一 一 一 
model_0 一 一 一 一 
350 355 360 365 370 375 380 


第 开行 对 应 抛 和 硬币 问题 中 的 
本 中 90 个 正面 朝 上 的 情况 。 





6.8 练习 


6.6 上 总结 

本 章 开 始 我 们 先 建立 了 这 样 一 种 直观 感受 : 好 的 模型 应 该 能 简单 有 效 地 解释 
数据 。 基 于 该 直觉 ， 我 们 讨论 了 统计 学 和 机 器 学 习 中 的 过 拟 合 和 欠 拟 合 问题 ， 首 
先 分 析 了 传统 的 AIC， 然 后 是 与 之 类 似 的 更 符合 贝 叶 斯 的 DIC， 接 下 来 讨论 了 基 
于 二 者 的 改进 版 WAIC。 同 时 我 们 还 简单 讨论 了 经 验 性 的 交叉 验证 方法 以 及 采 
] LOO 对 其 结果 进行 近似 的 方法 。 本 章 还 从 另外 一 个 角度 简要 讨论 了 先 验 与 
多 层 模型 。 最 后 ， 我 们 讨论 了 贝 叶 斯 因子 ， 如 何 计 算 贝 叶 斯 因子 ， 以 及 如 何 解 
决 一 些 与 之 相关 的 采样 问题 。 本 章 的 最 后 还 解释 了 使 用 贝 叶 斯 因子 与 信息 准则 
的 不 同 目的 。 



































































































































6.7 ”深入 阅读 
《Statistical Rethinking》 中 的 第 6 章 。 
《Doing Bayesian Data Analysis, Second Edition》 中 的 第 10 章 。 
《Bayesian Data Analysis, Third Edition》 中 的 第 7 章 。 
Jake VanderPlas 关于 模型 选择 的 一 篇 博客 : http://jakevdp.github.io/blog/2015/ 
08/07/frequentism-and-bayesianism-5-model-selection/。 
图 用 LOOCV 和 WAIC 对 贝 叶 斯 模型 进行 评估 : http:/arxivoreg/abs/1507.04544。 






































6.8 ”练习 

(1) 本 题 与 正则 先 验 有 关 。 在 生成 数据 部 分 的 代码 中 ， 将 order=2 改 成 其 
他 值 ， 比 如 order=5， 然 后 拟 合 model p 并 画 出 结果 的 曲线 。 重 复 该 过 程 ， 用 
st=100 的 beta 分 布 蔡 换 st=1 的 beta 分 布 并 画 出 结果 曲线 。 两 种 情况 下 的 曲线 有 
什么 不 同 ? 如果 换 做 sd=np.array([10, 0.1, 0.1, 0.1, 0.1]) 呢 ? 

(2) 重复 上 面 的 练习 ， 将 数据 的 个 数 增加 到 500。 

(3) 用 3 阶 的 数据 去 拟 合 ， 计 算 WAIC 和 LOO， 画 出 结果 ， 将 它们 与 线性 
和 抛物 线 模型 进行 比较 。 

(4) 用 pm.sample ppcO 重 跑 PPC 的 例子 ， 不 过 画 出 y 的 值 而 非 其 均值 。 
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(5) 阅读 并 运行 PyMC3 官方 文档 中 后 验 预 测 的 例子 : https:/pymc-devs.github. 
io/pymc3/notebooks/posterior predictive.html。 特 别 留 意 Theano 中 共享 变量 的 


使 用 。 























(6) 分 别 用 均匀 先 验 beta(1,1) 和 其 他 先 验 (如 beta(0.5,0.5)〉 比较 抛 硬币 问 
题 中 的 贝 叶 斯 因子 。 将 数据 个 数 设 为 30， 其 中 15 次 正面 朝 上 。 将 推断 结果 与 第 
1 章 中 得 到 的 结果 进行 比较 。 
























































(7) 重复 本 章 最 后 一 个 例子 ， 减 少 样本 大 小 ， 然 后 再 比较 贝 叶 斯 因子 与 信息 
E 则 。 
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一 种 常见 的 构建 模型 的 方式 是 将 简单 的 模型 组 合 在 一 起 得 到 一 个 更 复杂 的 模型 。 
在 统计 学 中 ， 这 类 模型 通常 称 为 混合 模型 。 混 合 模型 有 许多 用 途 ， 比 如 直接 对 亚 种 群 
建 模 ， 或 者 作为 一 个 小 技巧 来 处 理 无 法 用 简单 分 布 描述 的 复杂 概率 分 布 。 这 一 章 我 们 
将 学 习 如 何 构建 这 类 混合 模型 ， 同 时 还 将 看 到 ， 前 面 几 章 中 的 一 些 模型 本 质 上 其 实 也 
是 混合 模型 ， 而 在 这 一 章 中 ， 我 们 将 从 混合 模型 的 视角 去 揭示 它们 。 

本 章 我 们 将 学 习 以 下 内 容 : 
了 限 混合 模型 ; 
零 膀 胀 泊 松 分 布 ; 
零 膨胀 泊 松 回归 ; 
ee 
基于 模型 的 聚 
连续 混合 a 































































































7.1 混合 模型 
有 时 候 ， 某 种 现象 或 者 过 程 无 法 用 一 个 简单 的 分 布 〈“ 比 如 高 斯 分 布 、 伯 努 利 
分 布 或 者 其 他 常见 的 概率 人 分布) 描述 ， 但 可 以 使 用 这 些 分 布 的 组 合 来 描述 。 这 种 
假设 数据 是 从 一 系列 分 布 的 组 合 中 得 到 的 模型 ， 称 作 混 合 模 型 。 

一 种 应 用 混合 模型 的 场景 是 ， 数据 集 来 自 于 一 些 亚 种 群 的 组 合 。 比 如 ， 在 

高 分 布 的 时 候 ， 我 们 会 很 自然 地 将 成 人 分 为 男人 和 女人 两 个 亚 种 群 ， 此 外 ， 
如 果 想 要 在 分 析 中 包含 未 成 年 人 ， 可 能 需要 加 入 第 3 个 亚 种 群 去 描述 未 成 年 人 
(在 这 个 种 群 中 可 能 不 需要 区 分 男孩 和 女孩 )。 男 外 一 个 有 关 混 合 模型 的 经 典 例子 
是 用 其 来 描述 一 组 手写 数字 (MNIST 数据 集 )， 这 种 情况 下 ， 可 以 很 自然 地 使 用 


























































































































10 个 亚 种 群 对 数据 建 模 。 
某 些 情况 下 ， 选 择 混合 模型 可 能 是 出 于 数学 上 《或 计算 上 ) 方便 性 的 考虑 ， 而 
不 是 因为 我 们 希望 尽量 用 亚 种 群 去 描述 数据 。 以 高 斯 分 布 为 例 ， 许 多 单 峰 分 布 和 近 
似 对 称 的 分 布 都 可 以 用 高 斯 分 布 去 近似 ， 不 过 对 于 多 峰 分 布 或 者 偏 斜 分 布 呢 ?我 们 
还 可 以 使 用 高 斯 分 布 对 其 建 模 吗 ? 答案 是 如 果 使 用 混合 高 斯 分 布 的 话 是 可 以 的 。 在 
高 斯 混合 模型 中 ， 每 个 高 斯 分 布 都 有 不 同 的 均值 以 及 相同 《或 不 同 ) 的 标准 差 。 通 
过 组 合 高 斯 分 布 ， 我 们 可 以 给 模型 增加 灵活 性 ， 从 而 适应 复杂 的 数据 分 布 。 事 实 上 ， 
我 们 可 以 用 多 个 高 斯 分 布 去 拟 合 任意 分 布 ， 而 不 论 该 分 布 有 多 人 么 复杂 或 者 奇怪 ， 上 后 
体 的 高 斯 分 布 个 数 取决 于 拟 合 的 精度 和 数据 的 具体 分 布 情况 。 充 分 应 用 该 思想 的 一 
个 例子 是 前 面 见 过 的 KDE 方法 ， 用 来 画 出 数据 的 分 布 《而 不 是 用 直方 图 )， 该 方法 
对 每 个 点 都 应 用 一 个 分 布 〈 在 Scipy 的 实现 中 用 的 是 高 斯 分 布 )， 然 后 将 每 个 单独 的 
高 斯 分 布 都 求 和 之 后 用 来 拟 合 数据 的 分 布 。KDE 属于 非 参 的 方法 ， 我 们 将 在 第 8 章 
详细 讨论 非 参 方法 。 现 在 先 只 关注 如 何 用 混合 高 斯 模型 来 拟 合 任意 分 布 。 

不 论 我 们 是 真 的 相信 数据 中 存在 亚 种 群 , /还 是 为 了 利用 其 数学 简洁 性 (又 或 
者 是 二 者 此 有 之 ) ， 混 合 模型 都 是 一 种 不 错 的 选择 ,使 用 混合 分 布 去 描述 数据 可 
以 给 我 们 的 模型 增加 很 大 的 灵活 性 。 















































































































































































































































































































































7.1.1 如 何 构建 混合 模型 

构建 有 限 混 合 模型 的 思想 是 : 我 们 有 一 定数 量 的 亚 种 群 ， 每 个 亚 种 群 都 可 以 
j 一 种 分 布 来 表示 ， 然 后 还 有 符合 这 些 分 布 的 数据 点 ， 不 过 我 们 并 不 知道 每 个 点 
有 具体 属于 哪个 分 布 ， 因 而 我 们 希望 正确 地 区 分 每 个 点 。 这 类 问题 可 以 通过 多 层 模 
型 来 实现 ， 在 模型 的 上 层 有 一 个 随机 变量 ， 通 常 称 为 隐 层 变量 〈 该 变量 一 般 无 法 
直接 观测 到 ) ， 然 后 根据 隐 变 量 的 函数 来 确定 每 个 观测 点 属于 哪个 分 布 。 也 就 是 
说 ， 隐 变量 决定 使 用 哪个 分 布 对 数据 点 进行 建 模 。 在 文献 中 ， 人 们 经 常 使 用 字母 
z 来 表示 隐 变 量 。 

让 我 们 从 一 个 简单 的 例子 来 着 手 构建 混合 模型 。 假 设 我 们 有 一 个 数据 集 ， 希 
望 用 3 个 高 斯 变量 对 其 描述 。 



































































































































































































































clusters = 3 
n cluster = [90, 50, 75] 





[174 ] 


n total = Sum(n_ cluster) 
2 
[2， 


means = 
std devs 


mix = np.random.normal (np.repeat (means, n cluster), 


n_cluster)) 


模型 


Di 


Kk 个 高 


sns.kdeplot (np.array (mix)) 


I 


plt.xlabel(' 


在 许多 真实 场景 中 ， 当 我 们 想 着 手 构建 模型 的 时 候 ， 通 常 从 更 简 
有 逐步 变 复 杂 。 这 种 做 法 的 优点 是 : 
数据 的 直观 认识 ， 同 时 避免 一 上 来 就 被 复杂 的 模型 难 








周斌 )。 





因此 ,多 














每 


中 。 有 许多 方法 可 以 解决 这 
并 构建 一 个 概率 模型 。 
这 里 借用 抛 重 币 所 
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4 开始 ， 然 后 有 


ee 
斯 分 布 )。 做 出 该 
支撑 ， 也 可 能 是 我 人 
个 高 斯 分 布 的 均值 
有 了 这 些 假设 之 后 ， 问 题 简化 成 了 将 每 个 数值 归 类 到 
个 问题 ， 显 然 ， 这 里 我 们 选择 
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个 高 斯 分 布 来 描述 (或 者 更 一 
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来 构建 模型 。 在 抛 硬币 问题 中 ， 


混合 模型 


np .repeat (std _ devs, 








可 以 一 





单 有 效 的 








步 步 建 立 对 问题 和 
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倒 了 《复杂 的 模型 














我 们 已 经 有 足够 的 实验 或 理 
Oe ee tle 












































通常 更 难 


般 地 ， 设 为 
E 论 知识 做 


3 个 已 知 的 高 斯 分 布 
] 贝 叶 斯 的 方法 解决 ， 








可 以 使 用 伯 努 
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只 不 过 现在 我 们 有 天 个 结果 。 
伯 努 利 分 布 更 一 般 的 形式 是 类 别 














布 。 狄 利克 雷 分 布 初 看 可 能 有 点 奇怪 ， 
角形 : 1- 单纯 形 是 一 个 线段 ; 2- 单纯 形 是 一 个 三 角形 ; 3- 单纯 














利 分 布 来 描述 可 能 出 现 的 结果 。 由 于 我 们 不 知道 正面 朝 上 或 者 反面 朝 上 的 概率 ， 
于 是 采用 了 一 个 beta 先 验 分 布 来 描述 。 


现在 高 斯 混合 模型 遇 到 的 问题 也 很 相似 ， 








分 布 ，beta 分 布 的 一 般 形 式 是 狄 利克 雷 分 
' 单 纯 形 ， 有 点 像 4 维 的 三 
是 正四 面体 ， 



























































Be ee ee 











的 向 量 ， 其 中 每 个 元 素 都 为 正 数 而 且 所 有 元 素 之 和 为 1。 在 理解 为 何 狄 利克 雷 








分 布 是 beta 分 布 的 一 般 形 式 之 前 ， 








我 们 先 回顾 下 beta 分 布 的 一 些 特性 。 








面 我 们 用 beta 分 布 来 描述 有 两 种 结果 的 问题 ， 其 中 之 一 的 概率 为 p， 男 一 个 
概率 为 1-p， 因 而 我 们 可 以 认为 beta 分 布 返 回 的 是 一 ns [», 
1-p]。 当 然 ， 在 实践 中 ， 我 们 通常 忽略 了 1-p 这 一 项 ， 因 为 它 已 经 通过 p 完 








全 被 定义 了 。 此 外 ，beta 分 布 也 可 


以 通过 两 个 标量 a 和 8 来 定义 。 这 些 参 














数 如 何 类 比 到 狄 利 元 雷 分 布 中 呢 ? 我 们 先 考虑 下 最 简单 的 狄 利 克 雷 分 布 ， 用 
来 对 有 3 种 结果 的 问题 建 模 。 此 时 的 狄 利克 雷 分 布 返回 一 个 长 度 为 3 的 向 量 
[p,9,"]， 其 中 r=1-(p+9)。 我 们 也 可 以 用 3 个 标 量 来 参数 化 地 描述 狄 利 殉 雷 




















分 布 ， 可 以 称 为 a、B 和 7 ， 不 过 这 
用 一 个 长 度 为 上 的 向 量 c 来 描述 ， 其 



































们 可 以 将 beta 分 布 和 狄 利 殉 雷 分 布 想象 成 描述 概率 分 布 的 分 布 ， 为 了 更 直观 地 
理解 ， 我 们 将 不 同 参 数 对 应 的 狄 利克 雷 



































之 不 方便 推广 到 更 高 维 的 情况 ， 所 以 这 里 使 
中 对 应 可 能 出 现 的 结果 的 种 类 个 数 。 我 


























分 布 画 了 出 来 ， 留 意 下 图 中 的 每 个 三 角 























形 与 参数 相近 的 beta 分 布 之 间 的 联系 。 


a= (0.5, 0.5, 0.5) 


a= (10.0，10.0，10.0) 


a= (1.0, 1.0，1.0) 


a= (2.0，5.0，10.0) 





7.1 混合 模型 








上 图 是 在 Thomas Boggs 代码 的 基础 上 稍 做 修改 后 生成 的 ， 你 可 以 在 本 书 相 
关 的 代码 中 找到 源码 ， 在 本 章 阅 读 更 多 部 分 可 以 了 解 更 多 细节 。 


现在 我 们 对 狄 利克 雷 分 布 有 了 更 多 了 解 ， 也 就 意味 着 掌握 了 构建 混合 模型 所 
需要 的 全 部 基础 。 一 种 可 视 化 的 方法 是 :将 其 看 作 是 基于 高 斯 估计 模型 的 (k 面 ) 
抛 硬 币 问 题 ， 当 然 ， 你 可 能 更 愿意 将 其 看 作 (Kk 面 ) 撕 散 子 问 题 。 用 Kruschke 


可 以 将 模型 画 成 如 下 形式 : 


| 
LU 


Ok Or 
Hk 
normal half~Cauchy 























































































































这 里 圆 角 和 矩形 框 表示 我 们 有 个 高 斯 似 然 ( 以 及 对 应 的 先 验 )， 类 别 变量 决 
定 具体 使 用 哪 一 个 描述 数据 。 

记 住 ， 我 们 假设 已 经 知道 了 这 些 高 斯 分 布 的 均值 和 标准 差 ， 只 需要 将 每 个 
点 赋 给 一 个 高 斯 分 布 即 可 。 下 面 构建 模型 中 的 一 个 细节 是 ， 我 们 已 经 有 了 两 个 
采样 器 ，Metropolis 和 ElemwiseCategorical， 后 者 是 专门 为 离散 变量 的 采样 设 
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计 的 。 


with pm.Model() as model kg: 
p = pm.Dirichlet('p', a=np.ones (clusters)) 


category = pm.Categorical('category', p=p, shape=n total) 
means = pm.math.constant ([10, 20, 35]) 
y = pm.Normal ('y', mu=means[category], sd=2, observed=mix) 


stepl = pm.ElemwiseCategorical (vars=[category], values=range (clusters)) 
step2 = pm.Metropolis (vars=[p]) 
trace kg = pm.sample (10000, step=[stepl, step2]) 

chain kg = trace kg[1000:] 

varnames kg = ['p'] 


pm.traceplot (chain kg, varnames kg) 
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现在 我 们 已 经 知道 了 高 斯 混合 模型 的 基本 结构 , 接 下 来 我 们 再 添加 一 层 更 
复杂 的 ， 估 计 出 高 斯 分 布 的 参数 。 我 们 假设 有 3 个 不 同 的 均值 和 一 个 共享 的 标 
准 差 。 

和 往常 一 样 ， 模 型 可 以 很 容易 地 用 PyMC3 的 语法 来 描述 。 














with pm.Model() as model ug: 
p = pm.Dirichlet('p', a=np.ones (clusters)) 


category = pm.Categorical('category', p=p, shape=n total) 


means = pm.Normal ('means', mu=[10, 20, 35], sd=2, shape=clusters) 


sd = pm.HalfCauchy('sd', 5) 
y = pm.Normal('y', mu=means[category], sd=sd, observed=mix) 
stepl = pm.ElemwiseCategorical (vars=[category], values=range (clusters)) 


step2 = pm.Metropolis (vars=[means, sd, p]) 


trace ug = pm.sample(10000, step=[stepl, step2]) 








然后 再 看 一 下 迹 。 





chain = trace[1000:] 


Varnames = 


['means 


1 
了 


1'sd', a"] 


pm.traceplot (chain, varnames) 
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以 及 推断 总 结 的 表格 。 
pm.df_ summary (chain, varnames) 
mean sd mc_error hpd_2.5 hpd_97.5 
means__0 | 21.053935 0.310447 0.012280 20.495889 21.735211 
means__1 35.291631 0.246817 0.008159 34.831048 35.781825 
means_ 2 | 8.956950 0.235121 0.005993 8.516094 9.429345 
sd 2.156459 0.107277 0.002710 1.948067 2.368482 
让 2 0 0.235553 0.030201 0.000793 0.179247 0.297747 
p_ 1 0.349896 0.033905 0.000957 0.281977 0.412592 
p__2 0.347436 0.032414 0.000942 0.286669 0.410189 


























接 下 来 再 做 后 验 预 测 检查 ， 看 看 模型 从 数据 中 学 到 了 什么 。 




















ppc = pm.sample ppc (chain, 50, model) 
FOE 1 Tn ppel yj]: 
sns.kdeplot (i, alpha=0.1, color='b') 


sns.kdeplot (np.array (mix), lw=2, color="'k') 

plt.xlabel ('$x$', fontsize=14) 
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注意 查看 图 中 颜色 较 浅 的 蓝 色 线条 所 表示 的 不 确定 性 ， 从 中 可 以 看 到 ， 在 x 





























绞 小 或 者 较 大 的 值 附近 ， 不 确定 性 较 低 ， 而 在 中 间 部 分 不 确定 性 较 高 。 这 一 点 符 



































合 直 观 认识 ， 因 为 不 确定 性 较 高 的 区 域 对 应 高 斯 分 布 重合 的 地 方 ， 
































因而 比较 难以 


























分 辨 一 个 点 具体 属于 哪 一 个 高 斯 分 布 。 我 承认 ， 这 个 问题 比较 简 和 





而 且 不 那么 有 





























挑战 性 ， 不 过 该 问题 有 助 于 强化 我 们 的 直觉 ， 即 一 个 简单 的 模型 可 以 扩展 并 应 用 











到 复杂 问题 中 。 


7.1.2 ”边缘 高 斯 混合 模型 
前 面 的 模型 中 ， 我 们 显 式 地 定义 了 隐 变 量 z， 这 样 做 带 来 的 一 


























离散 的 隐 变 量 z 采样 通常 会 导致 模型 收敛 较 慢 而 且 不 利于 探索 分 布 的 尾部 。 使 用 
一 些 针对 离散 隐 变 量 特殊 定制 的 采样 器 能 有 助 于 改进 采样 过 程 ， 除 此 之 外 ， 还 有 
一 种 做 法 是 换 一 种 参数 化 表示 方法 ， 重 新 构建 一 个 等 价 的 模型 。 沪 

































































个 问题 是 ， 对 























FE 意 ， 在 混合 模 








7.1 混合 模型 








型 中 ， 观 测 变量 是 根据 隐 变 量 z 构建 的 ， 即 : 





p(y|12,0) 


我 们 可 以 认为 隐 变 量 z 是 一 个 可 以 被 边缘 化 的 多 余 变 量 ， 因 而 得 到 : 











p(y109) 








幸运 地 是 ，PyMC3 包含 一 个 分 布 可 以 高 效 地 处 理 该 过 程 ， 不 需要 我 们 手动 
处 理 中 间 的 数学 过 程 ， 因 此 我 们 可 以 按 如 下 形式 构造 高 斯 混合 模型 








with pm.Model() as model mg: 


p = pm.Dirichlet('p', a=np.ones (clusters)) 


means = pm.Normal('means', mu=[10, 20, 35], sd=2, shape=clusters) 


sd = pm.HalfCauchy('sd', 5, shape=clusters) 
y = pm.NormalMixture('y', w=p, mu=means, sd=sd, observed=mix) 


step = pm.Metropolis () 
trace mg = pm.sample (2000, step) 


这 里 将 运行 模型 、 画 图 以 及 探索 结果 的 过 程 留 给 读者 当做 练习 。 












































7.1.3 ”混合 模型 与 计数 类 型 变量 


有 时 候 ， 我 们 会 用 到 一 些 计 数 类 型 的 数据 ， 比 如 放射 性 核 的 衰减 、 每 对 夫妻 
人 这 些 例子 的 相同 之 处 是 ， 我 们 可 以 用 非 负 的 
离散 数字 来 建 模 {0, 1, 2, 3...}。 这 类 变量 称 作 计数 变量 ， 通 常 使 用 泊 松 分 布 对 其 
建 模 。 












































泊 松 分 布 

假设 希望 统计 一 条 马路 上 每 个 小 时 经 过 的 红色 小 汽车 数量 ， 我 们 就 可 以 选 
j 泊 松 分 布 来 描述 该 数据 。 泊 松 分 布 通常 用 来 描述 在 一 段 固定 的 时 间 《 区 间 ) 内 
某 一 特定 事件 发 生 的 次 数 。 因 而 泊 松 分 布 假设 在 这 段 固定 的 时 间 《〈 区 间 ) 内 ， 事 
件 之 间 的 发 生 是 相互 独立 的 。 该 离散 分 布 只 有 一 个 参数 4， 对 应 分 布 的 均值 和 方 
差 。 泊 松 分 布 的 概率 质量 函数 为 : 








































































































其 中 : 


~ 




















国 4 是 单位 时 间 (空间 〉 内 时 间 发 生 的 均值 
图 大 是 正 整 数 ， 如 0，1，2，… 
国 Kl 表示 的 阶乘 


下 面 的 图 中 ， 我 们 可 以 看 到 一 系列 不 同 4 值 对 应 的 泊 松 分 布 的 例子 。 




















lam paranes. = 下 和 Ta 3 8 
k = np.arange (0, max(lam params) * 3) 
for lam in lam params: 
y = stats.poisson (lam) .pmf (k) 
plt.plot (k, y, 'o-', label="$\\lambda$ = {:3.1f}".format (lam)) 
plt.legend () 
plt.xlabel ('$k$', fontsize=14) 
plt.ylabel('$pmf (k)$', fontsize=14) 


pd 
Oouu 


pmf (后 





25 








注意 ，4 可 以 是 一 个 浮 点 数 ， 而 只 能 是 正 整 数 。 前 面 的 图 中 ， 每 个 点 表示 
对 应 x 取 值 的 分 布 情况 ， 这 里 点 与 点 之 间 用 曲线 连接 起 来 是 为 了 帮助 我 们 理解 该 
分 布 的 形状 ， 记 住 ， 泊 松 分 布 是 离散 的 分 布 。 泊 松 分 布 可 以 看 作 是 二 项 分 布 的 一 
种 特殊 形式 ( 当 n 非常 大 ， 而 p 很 小 时 )。 这 里 不 深入 过 多 的 数学 细节 ， 我 们 可 













































































7.1 混合 模型 








以 这 么 思考 ， 由 于 可 能 看 到 或 者 看 不 到 红色 小 汽车 ， 我 们 可 以 用 一 个 二 项 分 布 来 
对 红色 小 汽车 的 个 数 建 模 ， 此 时 我 们 有 : 


















































Xx~ Bin(n,p) 





然后 ， 二 项 分 布 的 均值 为 : 
E[x]=np 
二 项 分 布 的 方差 为 : 
Var[x]=np(1 — p) 


不 过 考虑 到 即使 你 站 在 一 条 非常 繁忙 的 马路 上 ， 看 到 红色 小 汽车 的 机 会 相 比 
于 整个 城市 的 汽车 总 量 仍然 很 少 ， 因 而 我 们 有 : 








np np=np(l-p) 


于 是 ， 我 们 可 以 做 如 下 近似 : 





Far[x] = np 


现在 均值 和 方差 是 用 同一 个 数 来 表示 的 ， 于 是 我 们 可 以 有 信心 地 说 这 里 的 变 
量 服从 泊 松 分 布 ， 此 时 我 们 有 : 















































X~ Pois(4=np) 


零 膨胀 泊 松 模型 

当 我 们 计数 时 ， 数 字 0 可 能 会 多 次 出 现 ， 原 因 有 多 个 ， 有 可 能 在 我 们 统计 红 
色 汽 车 个 数 时 刚好 没有 车 通过 那 条 马路 ， 或 者 是 我 们 碰巧 错过 了 (有 可 能 我 们 没 
有 注意 到 大 卡车 后 面 的 红色 小 汽车 )。 因 此 ， 如 果 使 用 的 是 泊 松 分 布 ， 在 进行 后 
验 预 测 检查 时 ， 不 会 得 到 一 个 非常 漂亮 的 拟 合 ， 因 为 如 果 数 据 真 的 符合 泊 松 分 布 
的 话 ， 我 们 不 会 看 到 这 么 多 的 0。 


如 何 解 决 这 个 问题 昵 ? 我 们 可 以 尝试 找到 模型 预测 比 观察 到 的 0 更 少 的 原 
因 ， 并 将 其 加 入 到 模型 中 。 不 过 大 多 数 情 况 下 ， 只 需要 假设 我 们 有 一 个 由 泊 松 分 
布 组 成 的 混合 模型 即 可 ， 其 中 泊 松 分 布 的 概率 为 w， 取 到 额外 0 的 概率 为 1 -ww。 
如 果 选 用 混合 模型 ， 那 么 我 们 得 到 的 就 是 零 脱 胀 泊 松 模型 (Zero-Inflated Poisson， 
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ZIP)。 在 有 些 书 中 ， 你 也 许 会 看 到 yw 表示 额外 的 0， 而 1 一 yw 表 示 泊 松 分 布 的 概率 。 
这 个 问题 不 太 大 ， 只 需要 在 具体 例子 中 注意 区 分 就 好 。 一 个 基本 的 零 膨 胀 泊 松 模 
型 的 表示 形式 如 下 : 














p(y;=0)=1-wy +(W)e™” 





p(yj;=h)= 


其 中 1-w 是 取 到 额外 0 的 概率 。 我 们 可 以 根据 这 些 等 式 用 PyMC3 来 
构建 模型 ,不 过 PyMC3 已 经 自 带 了 ZIP 分布， 因此 这 个 模型 写 起 来 更 容 
易 一 些 。 由 于 Python 已 经 有 一 个 匿名 函数 关键 字 lambda 了 ， 因 此 我 们 这 
里 使 用 了 lam 来 表示 上 式 中 的 4， 于 是 我 们 可 以 用 以 下 PyMC3 代码 实现 
ZIP 模型 : 











with pm.Model() as 2IP: 
psi = pm.Beta('p', 1, 1) 


lam = pm.Gamma('lam', 2, 0.1) 


y = pm.ZeroInflatedPoisson('y', lam, ps8i, “obsérved=counts) 
trace = pm.sample (1000) 
pm.traceplot (trace[:]); 
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ZIP 模型 看 起 来 可 能 有 点 筑 ， 不 过 有 时 候 我 们 需要 用 它 来 估计 一 些 简单 的 
分 布 ( 甚 至 是 泊 松 分 布 或 者 高 斯 分 布 )。 此 外 ， 泊 松 分 布 或 者 ZIP 分 布 还 可 以 
用 于 线性 模型 。 在 第 4 章 中 ， 我 们 看 到 过 ， 一 元 线性 回归 模型 可 以 由 一 个 线 











7.1 混合 模型 


























性 模型 (通过 一 个 恒 等 逆 连结 函数 ) 和 作为 噪声 或 者 误差 的 高 斯 分 布 〈 或 1 分 
布 ) 组 成 。 第 5 章 中 ， 我 们 还 看 到 了 如 何 将 这 个 模型 用 于 分 类 ， 其 中 使 用 了 
逻辑 函数 或 者 softmax 函数 作为 逆 连 结 函 数 ， 同 时 用 伯 努 利 分 布 或 者 类 别 分 
布 对 因 变 量 建 模 。 根 据 同样 的 思想 ， 当 因 变 量 为 计数 变量 时 ， 可 以 用 一 个 泊 
松 分 布 或 者 ZIP 分 布 进行 回归 分 析 ， 下 图 就 是 一 个 ZIP 回归， 不 过 如 果 我 们 
要 做 泊 松 回归 就 不 需要 包含 wy， 因为 我 们 不 需要 对 多 余 零 建 模 。 注 意 ， 现 在 我 
们 可 以 使 用 指数 函数 作为 逆 连 结 函 数 ， 该 选择 保证 了 线性 模型 的 返回 值 始终 


都 是 正 的 。 
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为 了 用 例子 说 明 ZIP 回归 模型 是 如 何 实现 的 ， 这 里 我 们 使 用 从 http://www. 
ats.ucla.edu/stat/data/fish.csv 得 到 的 数据 集 ， 该 数据 集 也 可 以 在 本 书 的 代码 中 找 
到 。 问题 描述 如 下 : 我 们 在 一 个 公园 管理 处 工作 ， 和 希望 提升 游客 的 体验 ， 因 此 
我 们 决定 对 访问 公园 的 250 组 游客 进行 问卷 调查 ， 在 收集 到 的 数据 中 包含 以 下 
内 容 : 

国 他 们 抓 到 的 鱼 的 条 数 ; 

国 每 组 中 有 多 少 个 小 孩 ; 

国 他 们 是 否 带 了 露营 车 到 公 


我 们 将 使 用 该 数据 ， 根 据 小 孩 个 数 和 是 否 带 露 营 车 这 两 个 变量 来 预测 它们 抓 
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到 的 鱼 的 条 数 。 下 面 用 Pandas 通过 如 下 代码 载 入 数据 : 

fish data = pd.read csv('fish.csv') 

这 里 将 探索 数据 集 的 过 程 当 做 练习 留 给 读者 ， 你 可 以 自由 使 用 画图 函数 
或 者 Pandas 中 的 describe() 函数 等 。 我 们 可 以 按 如 下 形式 先 将 Kruschke 图 转换 
成 PyMC3 中 的 代码 : 














with pm.Model() as ZIP reg: 
psi = pm.Beta('psi', 1, 1) 


alpha = pm.Normal ('alpha', 0, 10) 
beta = pm.Normal ('beta', 0, 10, shape=2) 
lam = pm.math.exp(alpha + beta[0] * fish data['child'] + betal[l] * 


fish_datal[l'camper']) 


y = pm.ZeroInflatedPoisson('y', lam, psi, observed=fish datal'count']) 
trace ZIP reg = pm.sample(1000) 

chain ZIP reg = trace ZIP reg[100:] 

pm.traceplot (chain ZIP reg) 
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和 往常 一 样 ， 你 需要 对 采样 过 程 做 完整 的 检查 ， 为 了 更 好 地 理解 推断 结果 ， 
可 以 用 如 下 代码 画 一 幅 图 出 来 : 


children = [0, 1, 2, 3, 4] 
fish_count pred 0 = [] 
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fish _ count pred 1 = [] 
thin = 5 
for n in children: 
without camper = chain ZIP reg['alpha'][::thin] + chain ZIP reg['beta'] 
Lad tl 
with camper = without camper + chain ZIP reg['beta'][:,1][::thin] 
fish _ count pred 0.append (np.exp (without camper)) 


fish _count pred 1.append (np.exp (with camper)) 
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7.1.4 ” 鲁 棒 逻辑 回归 


前 面 我 们 已 经 知道 了 如 何在 不 直接 对 多 余 零 建 模 的 情况 下 ， 解 决 零 过 剩 的 问 
题 。 根 据 Kruschke 的 建议 ， 另 外 一 种 类 似 的 方法 是 ， 构 建 一 个 更 鲁 棒 的 逻辑 回 
归 。 在 逻辑 回归 中 ， 我 们 将 数据 建 横 成 二 项 式 的 〈 即 0 和 1)， 因 而 数据 集 有 可 
能 包含 多 余 的 0 或 者 1。 这 里 还 是 以 前 面 的 意 尾 花 数 据 集 为 例 ， 不 过 增加 了 一 些 
异常 点 ， 代 码 实现 如 下 : 
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iris = sns.load dataset ("iris") 

df = iris.query ("species == ('setosa', ‘'versicolor')") 
y_0 = pd.Categorical (df['species']) .codes 

Xn = "seépal length'" 

x_0 = df[x n] .values 


y_0 = np.concatenate((y 0, np.ones (6))) 





X 0 = np.concatenate((x 0, [4.2, 4.5, 4.0, 4.3, 4.2, 4.4])) 
x 0m=x0 - x 0.meanl() 


Blt Plot(w 0; YY. 0 "oO, GTGEE 
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其 中 有 一 些 versicolors 的 花 苯 长 度 异 常 短 ， 这 里 可 以 通过 一 个 混合 模型 来 修 
复 。 我 们 假设 变量 的 输出 源 自 两 个 部 分 ， 其 一 是 概率 为 元 的 随机 结果 ， 另 外 一 个 
是 概率 为 1 -x 的 逻辑 回归 分 布 。 对 应 的 数学 形式 如 下 : 


p=0.5x+(l— x)logistic(g + PBX) 














注意 当 x=1 时 , p=0.5; 当 x=2 时 ， 就 得 到 了 逻辑 回归 。 可 以 在 第 5 章 模 
型 实现 的 基础 上 实现 上 面 的 模型 ， 代 码 实现 如 下 : 
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with pm.Model() as model rlg: 
alpha tmp = pm.Normal('alpha tmp', mu=0, sd=100) 
beta = pm.Normal ('beta', mu=0, sd=10) 


mu = alpha tmp + beta * x 0m 


theta = pm.Deterministic('theta', 1 / (1 + pm.math.exp (-mu))) 


pi = pm.Beta('pi', 1, 1) 
p= pi*0.5+ (1 - pi) * theta 


米 


alpha = pm.Deterministic('alpha', alpha tmp - beta x_0.mean ()) 


bd = pm.Deterministic('bd', -alpha/beta) 





yl = pm.Bernoulli('yl', p=p, observed=y_0) 


trace rlg = pm.sample(2000, start=pm.find MAP () ) 


varnames = ['alpha', 'beta', 'bd', 'pi'] 


pm.traceplot (trace rlg, varnames) 
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如 果 将 以 上 结果 与 第 5 章 中 的 结果 进行 比较 ， 我 们 可 以 看 到 二 者 差不多 : 


pm.dqf_ summary (trace rlg, varnames) 
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7.2 基于 模型 的 聚 类 





聚 类 是 统计 学 和 机 器 学 习 中 无 监督 学 习 的 一 部 分 ， 与 分 类 有 点 类 化 





复杂 一 些 ， 因 为 聚 类 问题 中 我 们 没有 正确 的 标签 。 











笼统 地 说 ， 聚 类 就 是 在 没有 标签 的 情况 下 将 属性 相近 的 数据 点 归 类 到 一 起 ， 
使 得 组 内 的 数据 距离 较 近 ， 而 组 间 数 据 的 距离 较 远 。 聚 类 有 许多 应 用 ， 比 如 ， 在 
种 系 遗 传 学 〈 生 物 学 中 研究 不 同 物种 之 间 的 进化 关系 的 一 门 学 科 ) 中 ， 聚 类 可 以 
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者 是 将 其 作为 探索 式 数据 分 析 的 一 部 分 。 接 下 来 将 学 习 一 些 常见 的 聚 
于 判断 两 个 点 是 否 属于 同一 个 组 。 





准则 ， 月 


] 来 指导 解决 一 些 进 化 问题 ， 男 外 一 个 更 偏 商业 的 应 用 是 ， 根 据 一 个 用 户 的 历史 
肖 费 记录 ， 将 其 与 其 他 用 户 聚 类 到 一 组 ， 从 而 猜 出 他 们 可 能 对 哪些 电影 、 书 籍 
歌曲 等 感 兴 趣 。 在 一 些 其 他 无 监督 学 习 的 任务 中 ， 我 们 可 能 希望 直接 做 聚 类 ， 或 


入 





通常 我 们 使 用 欧 几 里 得 距离 来 衡量 两 个 点 之 间 的 距离 。 直 观 上 看 ， 欧 几 里 
得 距离 就 是 连接 两 个 点 的 线段 长 度 ， 尽 管 我 们 测量 的 不 是 实际 的 物理 距离 (比如 
说 米 或 者 光 年 )， 仍 然 可 以 定义 出 欧 几 里 得 距离 ， 对 于 维 空间 中 的 两 个 点 q; 和 





























Pi， 可 以 将 欧 几 里 得 距离 定义 成 如 下 形式 : 





d(p,9)=d(g,p)=\2 (9;—p;) 
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在 机 器 学 习 中 有 一 个 算法 叫做 KK- 均值 聚 类 ， 使 用 的 就 是 欧 几 里 得 距离 。 我 
们 和 暂时 不 会 深入 学 习 这 个 算法 ， 不 过 我 建议 你 先 自己 了 解 下 ， 因 为 这 个 算法 是 
聚 类 问题 中 最 经 典 的 一 个 例子 ， 而 且 很 容易 理解 、 解 释 并 实现 。 在 Sebastian 
Raschka 写 的 《Python Machine Learning》 一 书 中 你 可 以 了 解 更 多 有 关 该 算法 的 
内 容 。 


计算 欧 几 里 得 距离 或 其 他 类 似 的 距离 并 非 解 决 聚 类 问题 的 唯一 方法 。 另 外 一 
种 方法 是 从 概率 的 角度 来 看 待 聚 类 问题 ， 假 设 数据 是 从 某 些 概率 分 布 中 抽样 得 到 
的 ， 然 后 可 以 得 到 一 个 概率 模型 ， 这 类 方法 通常 称 为 基于 模型 的 聚 类 。 

在 使 用 贝 叶 斯 的 框架 解决 聚 类 问题 的 时 候 ， 混 合 模型 是 一 个 很 自然 的 选择 。 
事实 上 ， 本 章 第 一 个 例子 就 是 使 用 的 混合 模型 对 〈 未 标注 的 ) 亚 种 群 进行 建 模 。 
利用 概率 模型 可 以 计算 出 每 个 点 属于 各 个 类 别 的 概率 ， 这 称 作 软 聚 类 ， 与 之 对 应 
的 是 硬 聚 类 〈 每 个 点 属于 某 个 类 别 的 概率 要 么 是 0， 要 么 是 1)。 当 然 ， 我 们 可 
以 通过 某 种 规则 或 者 阔 值 将 软 聚 类 转换 成 硬 聚 类 ， 就 像 罗 辑 回归 一 样 ， 一 种 
做 法 是 ， 计 算 每 个 点 属于 各 个 类 别 的 概率 ， 然 后 将 概率 最 大 的 那个 类 别 标签 
赋 给 该 点 。 
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7.2.1 固定 成 分 聚 类 

本 章 的 第 一 个 例子 就 是 将 混合 模型 应 用 到 分 类 问题 的 一 个 典型 例子 ， 我 们 对 
数据 有 一 个 经 验 性 的 假设 分 布 ， 然 后 用 3 个 高 斯 分 布 来 描述 数据 中 的 亚 种 群 。 注 
意 这 里 假设 数据 服从 混合 高 斯 分 布 ， 而 不 是 从 原来 数据 之 间 相 似 性 测度 的 角度 来 
思考 的 。 






















































































7.2.2 非 固定 成 分 聚 类 

在 一 些 问题 ， 比 如 手写 数字 的 识别 中 ， 我 们 很 容易 就 能 看 出 类 别 的 个 数 ， 对 
于 另外 一 些 问 题 ， 我 们 可 以 有 一 些 靠 谱 的 猜测 ， 比 如 对 于 某 个 与 意 尾 花 数据 集 
相似 的 数据 集 ， 我 们 可 能 知道 其 中 样本 的 来 源 是 一 个 只 有 3 种 高 尾 花 生长 的 地 
方 ; 而 对 于 一 些 其 他 问题 而 言 ， 预 先 指 定 类 别 个 数 的 先 验 可 能 会 有 问题 。 一 种 贝 
叶 斯 的 解决 办 法 是 使 用 一 种 非 参 的 方法 来 估计 出 类 别 的 个 数 ， 比 如 我 们 可 以 使 用 
狄 利克 雷 过 程 。 在 第 8 章 中 ， 我 们 将 学 习 非 参 统计 学 ;不 过 ， 本 书 并 没有 包 
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狄 利克 雷 过 程 ， 建 议 你 在 阅读 完 第 8 章 之 后 ， 阅 读 并 运行 以 下 代码 https:/pymc- 
devs.github.io/pymc3/notebooks/dp_mix.html， 这 个 介绍 是 由 Austin Rochford 写 的 
(PyMC3 的 开发 者 之 一 ， 也 是 本 书 的 英文 版 的 审 稿 人 )。 














7.3 连续 混合 模型 


本 章 重 点 关注 了 离散 的 混合 模型 ， 不 过 我 们 也 可 以 有 连续 的 混合 模型 。 
事实 上 我 们 已 经 了 解 了 其 中 的 一 部 分 ， 连 续 混合 模型 之 一 就 是 前 面 介绍 过 的 
鲁 棒 人 逻辑 回归 模型 ， 由 两 个 部 分 组 成 : 一 个 人 逻辑 回归 和 一 个 随机 估计 。 注 意 
此 时 参数 地 不 再 是 一 个 开关 ， 而 更 像 是 一 个 球形 把 手 控制 着 逻辑 回归 和 随机 
变量 的 比例 ， 只 有 当 关 为 0 或 1 时 ， 我 们 才 会 得 到 完全 随机 的 结果 或 者 完全 
的 逻辑 回归 结果 。 

多 层 模型 也 可 以 看 做 是 连续 混合 模型 ， 其 中 每 个 组 的 参数 来 自 于 上 层 的 连续 
分 布 。 更 具体 点 ， 假 设 我 们 要 对 几 个 不 同 的 组 做 线性 回归 ， 可 以 假设 每 个 组 都 有 
自己 的 斜率 或 者 所 有 组 都 共享 相同 的 斜率 。 此 处 ， 除 也 将 问题 看 作 这 两 个 极限 情 
况 ， 我 们 还 可 以 构建 一 个 多 层 模型 ， 对 这 些 极 限 值 构 建 一 个 连续 混合 模型 ， 此 时 
这 些 极限 值 不 过 是 分 层 模型 中 的 一 些 特例 罢了 。 




















































































































































































































7.3.1 beta- 二 项 分 布 与 负 二 项 分 布 

beta- 二 项 分 布 是 一 个 离散 分 布 ， 通 常用 来 描述 次 伯 努 利 实 验 中 成 功 的 次 
数 y， 其 中 每 次 实验 成 功 的 概率 p 未 知 ， 并 且 假 设 其 服从 参数 为 a 和 的 伯 努 利 
beta 分 布 ， 对 应 的 数学 形式 如 下 : 






































BetaBinonial(y |n,a,p)= | Bin(y | p,n)Beta(p|a,pP)dp 
也 就 是 说 ， 为 了 找到 观测 到 结果 yy 的 概率 ， 我 们 遍历 所 有 可 能 的 “连续 的 ) 
Pp 值 然 后 求 平均 。 因 此 ，beta- 二 项 分 布 也 可 以 看 作 是 连续 混合 模型 。 
如 果 你 觉得 beta- 二 项 分 布 听 起 来 很 熟悉 ， 那 一 定 是 因为 你 对 本 书 的 前 两 章 
学 得 很 认真 ! 在 抛 硬 币 的 问题 中 ， 我 们 用 到 了 该 模型 ， 尽 管 我 们 当时 显 式 地 使 用 
了 一 个 beta 分 布 和 一 个 二 项 分 布 ， 你 也 可 以 直接 使 用 混合 beta- 二 项 分 布 。 
















































































7.4 总 结 














类 似 的 ， 还 有 负 二 项 分 布 ， 可 以 将 其 看 作 是 一 个 连续 混合 的 个 马 泊 松 分 布 ， 
也 就 是 将 一 个 来 自 伽 马 分 布 的 值 作 为 泊 松 分 布 的 参数 ， 然 后 对 泊 松 分 布 连同 伽 马 
分 布 求 均值 (积分 )。 该 分 布 常用 来 解决 计数 型 数据 中 的 一 个 常见 问题 过 度 离散 。 
段 设 你 用 一 个 泊 松 分 布 来 对 计数 型 数据 建 模 ， 然 后 你 意识 到 数据 中 的 方差 超出 了 
模型 的 方差 (使 用 欧 松 分 布 的 一 个 问题 是 ， 其 均值 与 方差 是 有 联系 的 ， 事 实 上 是 
] 同 一 个 参数 描述 的 )， 那 么 解决 该 问题 的 一 个 办 法 是 将 数据 看 作 是 (连续 的 ) 
泊 松 分 布 的 混合 ， 其 中 的 泊 松 分 布 的 参数 来 自 于 一 个 伽 马 分 布 ， 从 而 很 自然 地 用 
到 了 负 二 项 分 布 。 使 用 混合 分 布 之 后 ， 我 们 的 模型 有 了 更 好 的 灵活 性 ， 并 且 能 够 
更 好 地 适应 从 数据 中 观测 到 的 均值 和 方差 。 


beta- 二 项 分 布 和 负 二 项 分 布 都 可 以 用 作 线 性 模型 的 一 部 分 ， 而 且 也 都 有 零 
膨胀 的 版 本 ， 此 外 二 者 都 已 经 在 PyMC3 中 实现 了 。 




















































































































































































































7.3.2 tt 分布 
前 面 我 们 介绍 了 t+ 分 布 是 一 种 更 鲁 棱 的 高 斯 分 布 。 从 下 面 的 数学 表达 式 可 以 
看 到 ，t 分 布 同样 可 以 被 看 作 是 连续 混合 模型 ; 









































sO 110) = NGI) nv (oI vdv 























注意 ， 这 个 表达 式 与 前 面 的 负 二 项 分 布 的 表达 式 很 像 ， 不 过 这 里 是 参数 为 
KX 和 o 的 正 态 分 布 以 及 从 参数 为 v 的 maw” 分 布 中 采样 得 到 的 c， 也 就 是 自由 
通常 我 们 更 倾向 于 称 为 正 态 参 数 。 这 里 参数 4 和 beta- 二 项 分 布 里 的 参数 p 
上 相似 ， 等 价 于 有 限 混 合 模 型 中 的 隐 变 量 z。 对 于 有 限 混合 模型 来 说 ， 很 多 时 人 
我 们 可 以 在 推断 之 前 先 对 隐 变 量 z 做 边缘 化 处 理 ， 从 而 得 到 一 个 更 简单 的 模型 ， 
正如 前 面 的 边缘 混合 模型 中 的 例子 一 样 。 
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7.4 总结 

这 一 章 中 ， 我 们 学 习 了 混合 模型 。 混 合 模 型 可 以 用 来 解决 许多 问题 ， 根 据 前 
面 几 章 中 学 到 的 内 容 ， 我 们 可 以 很 容易 地 构建 有 限 混合 模型 。 这 类 模型 可 以 很 方 
便 地 应 用 在 计数 类 型 数据 的 零 过 剩 问题 中 ， 或 者 是 在 观测 到 过 度 分 散 的 数据 时 用 




























































































第 7 章 混合 模型 





来 扩展 泊 松 模型 。 另 外 一 个 应 用 是 扩展 逻辑 回归 ， 用 来 处 理 异 常 值 。 此 外 我 们 还 
简单 地 讨论 了 从 贝 叶 斯 角度 做 聚 类 的 一 些 核心 概念 。 最 后 本 章 讨论 了 一 些 有 关连 
续 混 合 模型 的 理论 ， 以 及 如 何 将 这 类 模型 与 前 面 几 章 中 学 到 的 概念 联系 起 来 ， 比 
如 多 层 模 型 、t 分 布 。 

















7.5 深入 阅读 
加 《Statistical Rethinking》 中 的 第 11 章 。 


《Doing Bayesian Data Analysis, Second Edition》 中 的 第 21 章 。 
《Bayesian Data Analysis, Third Edition》 中 的 第 22 章 。 





7.6 练习 


1. 修改 本 章 第 一 个 例子 中 的 合成 数据 ， 从 而 使 得 模型 更 难 复 现 出 真实 的 参 
数 。 尝 试 通过 修改 3 个 高 斯 分 布 的 均值 和 方差 增加 它们 的 重 登 度 ， 党 试 修改 每 类 
数据 的 个 数 ， 并 思考 如 何 有 针对 性 地 优化 模型 。 

2. 使 用 “ 鱼 ” 数 据 集 扩展 本 章 中 使 用 的 模型 将 人 数 这 一 变量 作为 线性 模 
型 的 一 部 分 。 在 对 多 余 零 建 模 的 时 候 包含 进 该 变量 ， 你 应 该 会 得 到 有 两 个 线性 回 
归 的 模型 ， 其 中 之 一 将 小 孩 个 数 和 是 否 带 帐篷 之 间 的 关系 与 泊 松 分 布 的 系数 联系 
在 一 起 ， 男 外 一 个 将 人 数 与 W 联系 在 一 起 。 对 于 后 者 ， 你 可 能 需要 一 个 逻辑 回 
归 作 为 逆 连 结 函数 。 

3. 使 用 鲁 棒 人 逻辑 回归 中 的 例子 ， 将 其 输入 到 非 鲁 棒 人 逻辑 回归 模型 中 ， 检 查 
异常 值 是 否 对 结果 有 影响 。 你 可 能 需要 增加 或 者 减少 异常 值 的 个 数 ， 从 而 更 好 地 
理解 一 般 的 逻辑 回归 与 鲁 棒 逻辑 回归 之 间 的 区 别 。 

4. 阅读 并 运行 PyMC3 中 有 关 混 合 模 型 的 例子 (https://pymce-devs.github.io/ 


pymc3/examples.html#mixture-models )。 
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5. 用 一 个 混合 模型 对 三 类 高 尾 花 进行 聚 类 ， 只 使 用 两 个 特征 ， 同 时 假设 你 
不 知道 正确 的 标签 。 你 可 能 需要 定义 一 个 三 元 高 斯 分 布 ， 你 可 以 从 一 个 简单 的 共 
享 的 协 方差 矩阵 开始 。 























目前 为 止 我 们 见 过 的 所 





的 参数 。 此 儿 





还 有 






































模型 都 是 参数 化 的 模型 
类 模型 称 为 非 参 模型 ， 在 非 参 模型 
据 大 小 变化 的 ， 换 句 话 说 ， 模 型 
减少 到 某 个 值 ， 从 而 正好 能 够 用 来 
的 概念 ， 以 及 如 何 从 核 函 数 的 角度 重新 思考 问题 
容 ， 不 仅仅 是 对 传统 的 方法 ， 对 于 
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问 














述 全 部 数据 。 
































函数 的 概率 分 布 。 尽 管 这 
化 的 核 函 数 来 推断 函数 。 


本 章 我 们 将 学 习 : 





斯 过 程 以 有 


高 基 


8.1 非 参 统计 
非 参 统计 通常 用 来 
根据 这 个 定义 ， 贝 叶 

















,汪汪 
六 贝 叶 斯 统计 学 和 机 器 学 习 也 是 如 此 。 我 们 将 以 


高 斯 分 布 为 例子 ， 探 讨 如 何 将 高 斯 模型 的 概念 扩展 到 无 限 多 维 ， 


型 ， 这 些 模 型 包含 固定 个 数 


! 中 ， 参 数 的 个 数 是 随 着 数 








ee 我 们 通过 某 种 方式 将 其 





一 章 中 ， 我 们 将 学 习 核 函 
是 统计 学 中 的 核心 


人 下 


数 
内 











并 学 习 这 类 描述 











文 么 做 一 开始 看 起 来 有 点 奇怪 ， 不 过 好 处 是 可 以 通过 参数 








函数 的 先 验 。 
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日 





叶 斯 统计 的 第 一 步 就 


古 





在 








型 中 准 














中 说 过 ， 概 率 分 布 是 


人 下 





型 称 作 非 
实际 使 


参数 化 模型 。 




















对 于 非 参 数 化 模型 而 言 ， 
j 中 会 根据 数据 将 其 收缩 到 


4 的 基石 。 在 贝 叶 
此 ， 我 们 将 参数 可 以 
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9 限 的 值 ， 











确 地 将 概率 分 布 组 合 在 一 起 。 


论 上 其 参数 个 数 是 无 

















类 不 依赖 于 参数 化 概率 分 布 的 统计 工具 /模型 。 
斯 统计 似乎 不 可 能 是 非 参 的 ， 
概率 模 
构建 概率 模型 
包含 有 无 限 多 参数 的 模型 ， 因 








因为 前 面 我 们 学 到 过 ， 贝 

















第 1 章 
斯 框架 中 ， 非 参 模 型 是 指 
随 着 数据 大 小 而 变化 的 模 
限 的 ， 
从 而 让 数据 本 身 来 决定 参 


























第 8 章 高 斯 过 程 


数 的 个 数 。 


8.2 ”基于 核 函 数 的 模型 


核 函 数 方法 相关 的 研究 是 一 个 非常 高 产 而 且 活跃 的 领域 ， 有 许多 书 讨论 这 
个 主题 ， 其 流行 也 是 因为 核 函 数 具 有 一 些 有 趣 的 数学 特点 。 这 里 只 需要 知道 ， 核 
函数 可 以 作为 非 线性 模型 的 基础 ， 并 且 相 对 来 说 比较 容易 计算 。 比 较 流行 的 核 函 
数 方法 有 两 种 : 支持 向 量 机 (Support Vector Machine，SVM) 和 高 斯 过 程 。 后 者 
是 一 种 概率 方法 ， 也 正 是 本 章 将 要 介绍 的 主题 ， 前 者 不 是 概率 的 方法 ， 这 里 不 做 
深入 讨论 ， 你 可 以 阅读 Jake Vanderplas 写 的 《Python Data Science Handbook》 和 
Sebastian Raschka 写 的 《Python Machine Learning Bayesian Analysis with Python 》 
这 两 本 书 了 解 更 多 。 在 继续 深入 之 前 ， 我 们 先 了 解 一 下 什么 是 核 以 及 如 何 使 用 。 

你 可 能 会 发 现 ， 在 统计 学 中 ， 核 函数 的 定义 不 止 一 种 ， 并 且 根 据 定 义 的 不 
同 ， 核 函数 的 数学 特性 也 有 所 不 同 。 结 合 本 章 讨论 的 目的 ， 这 里 将 核 函 数 看 作 是 
一 个 对 称 函 数 ， 接 受 两 个 输入 并 返回 一 个 永远 为 正 数 的 值 ， 从 而 可 以 将 核 函 数 的 
输出 看 作 是 两 个 输入 变量 之 间 的 相似 度 。 

核 函数 有 许多 种 ， 其 中 某 些 经 过 特殊 改造 后 能 很 好 地 用 于 解决 图 像 
别 、 文 档 分 析 等 问题 ， 还 有 些 核 函数 适用 于 对 周期 性 的 函数 建 模 。 有 一 个 
核 函 数 在 统计 学 和 机 器 学 习 中 非常 流行 ， 叫 做 高 斯 核 ， 也 称 作 高 斯 径 向 基 
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8.2.1 高 斯 核 函 数 
高 斯 核 函 数 的 定义 如 下 : 























,2 
|x—x 
其 中 | =- x 必 称 为 欧 氏 距离 的 平方 (Squared Euclidean Distance，SED)， 对 


于 一 个 nn 维 的 空间 ， 我 们 有 : 


K(x,x’)= | 





8.2 ”基于 核 函数 的 模型 


“== 4 = 








|x—x’ 

注意 ， 如 果 计 算 欧 几 里 得 距离 的 话 需 要 求 平方 根 。SED 并 不 满足 三 角 

不 等 式 ， 因 而 并 不 是 真实 的 距离 ， 不 过 在 许多 常见 的 问题 中 ， 我 们 只 需要 

对 不 同 的 SED 进行 比较 ， 例 如， 计算 一 些 点 中 的 最 小 欧 氏 距离 等 价 于 找到 
最 小 的 SED。 

有 一 点 不 太 明 显 ， 高 斯 核 函 数 与 高 斯 分 布 的 数学 形式 其 实 有 一 些 相似 之 处 ， 


将 常数 项 去 掉 之 后 ， 可 以 得 到 w= 2c"， 其 中 ，w 控制 着 核 函数 的 宽度 ， 在 这 里 正 
比 于 方差 ， 因 而 有 时 候 也 称 作 带宽 。 






















































































8.2.2 核 线性 回归 
前 面 我 们 学 习 了 线性 回归 模型 的 基本 形式 : 





























y= f(xX)+e 
其 中 ，s 是 噪声 或 者 误差 ， 通 常 是 高 斯 分 布 。 
JoDO=A=Zi7x 


























这 里 我 们 用 /() 来 表示 线性 函数 〈 没 有 噪声 ) ， 如 果 使 用 了 其 他 逆 连 结 函数 
(比如 第 5 章 中 的 逻辑 函数 )， 我 们 就 将 它 包含 在 f(.) 内 。 这 里 向 量 X 表示 一 个 系 
数 向 量 ， 通 常 是 一 个 系数 和 一 个 或 多 个 斜率 。 

在 第 4 章 中 ， 我 们 介绍 了 多 项 式 回 归 的 概念 ， 同 时 提 到 了 ， 多 项 式 回归 
的 唯一 实际 用 途 可 能 就 是 作为 统计 学 的 教学 科研 工具 (至 少 对 于 2 次 或 3 次 
以 上 的 多 项 式 回归 )。 此 外 我 们 还 学 习 了 如 何 将 多 项 式 回归 用 于 非 线 性 数据 
的 建 模 过 程 中 。 


这 里 我 们 将 多 项 式 回 归 表 示 成 如 下 


















































































































































NAN 


式 : 
HA= D787) 


其 中 , 乡 函数 表示 一 系列 阶 数 逐 渐 增 加 的 多 项 式 ， 将 向 量 x 转 成 矩阵 后 ， 矩 
阵 的 每 一 列 都 是 向 量 x 的 窜 次 (逐渐 增加 )， 从 而 有 效 地 将 数据 映射 到 了 更 高 维 
度 的 空间 中 ， 然 后 再 从 高 维 空间 中 找到 一 条 直线 去 拟 合 数据 ， 最 后 将 该 直线 投影 
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回 原始 的 低 维 
称 作 将 输入 投影 





空间 时 ， 不 一 定 仍然 是 直线 ， 而 有 可 能 是 


| 特征 空 





间 。 

















条 








H 线 。 整 个 过 程 通 


朋党 


坦 吊 


函数 9 不 一 定 是 多 项 式 ， 还 有 其 他 形式 的 函数 将 输入 向 量 映 射 到 高 维 的 ) 


特征 空 








zs 间 中 ， 在 此 条 件 下 ， 除 了 使 月 
函数 。 尽 管 在 数学 
作 核 函数 技巧 。 这 





上 暂 A 人 
人 二 











Bg 式 上 











概念 的 主要 | 
函数 方法 的 时 

继续 我 人 
» 这 里 





蓉 





换 句 话说 ， 
我 人 








原因 ， 
候 还 
] 的 讨论 ， 
] KK 来 表示 高 斯 核 函数 ， 于 是 得 到 : 





























而 特征 空 
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空间 














价 的 ， 使 用 核 函数 会 


的 概念 在 实际 























征用 
这 里 不 








有 
称 作 结 或 者 中 心 点 
我 们 完全 可 以 将 数据 点 作为 结 








] 为 什么 要 增加 这 些 点 ， 
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J 一 口 o 








如 何 使 
化 分 析 ， 





因此 
BA ~ Kj, 








么 4 的 变化 也 就 


性 ， 
个 种 字 ; 
来 近似 。 














进 
章 中 见 过 
每 个 结 ， 


注意 ， 
假设 w=1,， 


远 ， 那 么 k(%i,X))0。 换 句 训 





称 作 平 滑 函 


步 解释 一 
的 网 格 搜索 法 去 拟 合 
我 们 都 有 
数 的 权重 。 如 果 将 所 





如 果 结 
然后 如 


我 们 可 以 说 ， 如 果 交 和 六 比较 接近 ， 习 
如 果 对 太 改 动 一 点 点 ， ee， x 的 变化 直 
现在 思考 一 下 ， 我 们 可 以 将 其 
es ee 
数 。 尽 管 





越 大。 


[| 
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` 过 多 深入 





AH= DyiKi(x,x) 





尼 ? 在 直接 回 
E 离 原 数 据 越 近 ， 


果 蕊 那么 
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= Xj, 
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ff 说， 由 于 























了 些 特例 ， 














下 我 们 在 做 的 事情 ， 我 们 可 以 看 作 是 在 尝 








有 K(X,X;)=1; 





日 少 函数 之 外 ， 我 们 还 可 以 将 其 蔡 换 成 一 个 核 


让 计算 更 容易 一 些 ， 这 通常 称 


有 x 来 表示 数据 ， 此 外 还 有 一 个 向 量 叫做 x， 
\， 它 均匀 地 分 布 在 数据 的 范围 


内 。 








答 这 个 问题 之 前 ， 

核 函 数 的 返回 值 越 大 。 为 了 简 
如 果 羡 和 总 相隔 较 
nn 
么 函数 这 些 点 的 均值 


= 油 




















过 许多 问题 都 














个 高 斯 函 


| 的 高 






































个 平滑 的 未 知 函 数 ， 
数 ， 根 据 数 据 (通过 








函数 都 加 起 来 ， 那 








» 





事实 上 ， 





我 们 先 


作 是 模型 


这 





也 是 为 什么 核 函 数 是 许多 统计 学 方法 和 机 器 学 习 方法 中 的 核心 
中 反而 不 那么 重要 了 【尽管 在 学 习 核 
一 些 直 观 的 解释 )。 


中 的 数学 细节 ， 我 们 将 少 蔡 换 成 一 个 核 





后 者 也 是 一 个 向 
一 个 特例 是 x=x ， 
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< 

















也 很 接近 ， 
戌 大 ， 那 
的 一 种 特 
函数 有 一 











类 








可 以 用 








加 





滑 函 数 




















试 使 用 第 1 章 和 第 2 
中 网 格 的 格 点 
XY) 增加 或 者 降低 这 些 高 
么 就 得 到 了 一 个 平滑 的 曲线 并 拟 





是 x'， 





对 于 
斯 到 




















8.2 ”基于 核 函数 的 模型 
合 出 了 LK。 这 种 解释 称 作 权重 空间 视角 。 在 本 章 接 下 来 的 高 斯 过 程 一 节 中 ， 我 们 
将 看 到 描述 该 问题 的 另 一 种 视角 : 函数 空间 视角 。 


现在 ， 将 前 面 所 有 的 想法 汇总 在 一 起 ， 并 应 用 到 一 个 简单 的 合成 数据 集 上 ， 其 
中 因 变 量 是 一 个 sin 函数 ， 自 变量 是 一 系列 从 均匀 分 布 中 得 到 的 点 。 代 码 实现 如 下 : 




































































np.random.seed (1) 
x = np.random.uniform(0, 10, size=20) 
y = np.sin (x) 

Lt lOT(R, Yi "TO) 

plt.xlabel('$x$', fontsize=16) 


plt.ylabel ('$f(x)$', fontsize=16, rotation=0) 

















这 里 定义 一 个 函数 来 计算 模型 中 的 高 斯 核 函 数 ， 代 码 实现 如 下 : 





def gauss kernel (x, n_ knots=5, w=2): 


man 


Simple Gaussian radial kernel 


mam 


knots = np.linspace (np.floor (x.min()), np.ceil (x.max()), n_ knots) 


return np.array ([np.exp(- (x-k)**2/w) for k in knots]) 
剩 下 的 就 是 定义 系数 了 ,7Y 系数 的 个 数 应 该 与 结 的 个 数 一 致 。 注 意 ， 这 里 
7 系数 决定 了 估计 的 曲线 在 结 这 里 应 该 增加 还 是 降低 。 




















第 8 章 ， 高 斯 过 程 
有 时 候 将 模型 表示 成 线性 回归 更 合理 ， 对 应 的 数学 形式 如 下 : 


HK=a +pBx+D, yiKilx,x) 


不 过 这 里 我 们 将 省 略 截 距 a 和 和 斜率 5， 只 保留 最 后 一 项 。 这 里 使 用 柯 西 分 布 
作为 先 验 ， 稍 后 我 们 会 讨论 在 使 用 核 函 数 方法 过 程 中 选择 先 验 的 一 些 关键 点 ， 现 
在 先 运行 如 下 模型 : 


with pm.Model() as kernel model: 






































gamma = pm.Cauchy('gamma', alpha=0, beta=1, shape=n knots) 

sd = pm.Uniform('sd',0, 10) 

mu = pm.math.dot (gamma, gauss_ kernel (x, n_ knots)) 

yl = pm.Normal ('yl', mu=mu, sd=sd, observed=y) 

kernel trace = pm.sample (10000, step=pm.Metropolis()) 
chain = kernel trace[5000:] 


pm.traceplot (chain); 





mma 
3.0 也 
>，2.5 三 
呈 2.0 {3 
3 1.5 也 
3 1.0 全 
证 05 中 
0.0 
= 之 人 一 0 =0 0. 
a 0 sa 
>, Ss 0.7 
2 有 0.6 
3 © (03 
Ea 互 0.4 
上 好 
3 
0 1000 2000 3000 4000 5000 











可 以 看 到 模型 的 结果 与 sin 函数 很 接近 ， 接 下 来 对 得 到 的 模型 进行 后 验 
侈 查 ， 代 码 实现 如 下 : 








ppc = pm.sample ppc (chain, model=kernel model, samples=100) 


Blt,Blot (xXx; PPEL Yl1"]sT; ‘ro; alpha=o01) 
lt: Plot (zy YY» Bo) 
plt.xlabel ('$x$', fontsize=16) 


plt.ylabel (5$f (x)$', fontsize=16, rotation=0) 





8.2 ”基于 核 函数 的 模型 





模型 似乎 能 够 很 好 地 捕捉 到 数据 ， 现 在 我 们 再 用 之 前 未 使 用 的 数据 检查 模型 
的 效果 ， 代 码 实现 如 下 ; 


new x = np.linspace (np.floor (x.min()), np.ceil (x.max()), 100) 
k = gauss_ kernel (new x, n_ knots) 
gamma pred = chain['gamma'] 
for i in range (100): 
idx = np.random.randint (0, len (gamma pred)) 
y_pred = np.math.dot (gamma pred[idx], k) 
plt.plot (new x, y_pred, 'r-', alpha=0.1) 
Plt.xlabel ('$x$', fontsize=16) 
plt.ylabel ('$f (x)$', fontsize=16, rotation=0) 
Ble.Plot(x; yr bo)y 
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图 中 我 们 











修改 带宽 和 结 的 个 数 来 看 看 模型 的 效果 ， 本 章 的 练习 1 中 
外 本 章 的 练习 2 中 还 会 探讨 拟 合 另外 一 类 函数 的 效果 。 








8.2.3 
对 于 使 用 核 函数 方 





里 可 以 回想 一 下 前 面 用 
男 外 一 种 做 法 是 ， 
殊 的 计算 方法 ， 




















还 有 
































种 做 法 是 应 用 
的 大 小 与 7 参数 的 大 小 保持 一 致 ， 每 个 元 素 的 值 只 有 两 种 可 能 
j 这 种 方法 ， 我 们 可 以 决定 模型 
题 是 ， 只 对 低 维度 的 问题 有 效 ， 因 为 可 


























过 拟 合 与 先 验 


j 蓝 色 的 点 表示 数据 ， 用 红色 的 线 表 示 拟 合 的 











H 线 。 你 可 能 会 想 要 
9 相关 问题 的 描述 ， 此 
































法 的 模型 而 言 ， 人 们 常常 关心 的 一 点 是 如 何 选 择 结 的 个 数 
以 及 位 置 。 一 种 方法 是 直接 选择 数据 点 作为 结 ， 即 将 高 斯 分 布 放 在 数据 点 上 ， 这 


过 的 KDE 作 图 方法 。 


企 建 模 过 程 中 决定 结 的 个 数 和 位 置 。 这 种 做 法 需要 一 些 特 
不 是 很 通用 ， 或 者 至 少 不 那 么 容易 处 理 。 


思想 是 引入 一 个 模型 索引 变量 ， 


起 








~ 





变量 选择 ， 其 











































































































该 向 量 


0 或 者 1。 采 








对 应 系数 的 开 和 关 全 不 过 这 种 方法 的 一 个 问 
能 的 索引 组 合 是 系数 个 数 的 2 倍 。 一 种 


蔡 代 方案 是 使 用 正则 先 验 ， 我 们 希望 先 验 集中 在 0 附近 ， 从 而 将 7 系数 拉 癌 0， 


同时 让 XY 具有 长 尾 ， 从 而 避免 拉 得 太 历 害 了 一 种 正则 儿 
回忆 一 下 第 6 章 中 我 们 讨论 过 的 了 








一 种 是 拉 普 拉 斯 分 布 。 
LASSO 回归 。 

















8.3 高 斯 过 程 


前 面 简 要 介绍 了 如 何 用 核 函 数 构 建 统 计 模型 去 描述 任意 函数 。 也 许 核 函 数 回 
的 个 数 以 及 分 布 ， 这 似乎 有 
昌 核 函数 ， 直 接 在 函数 空间 做 推断 ， 








归 听 起 来 好 像 有 点 带 
点 问题 。 现 在 ， 我 们 将 

















在 解释 高 斯 过 程 之 前 ， 




















技巧 性 


E， 而 且 其 中 需要 指定 结 
从 另外 一 个 角度 使 月 
方法 基于 高 斯 过 程 ， 在 数学 上 和 计算 量 方面 都 更 受 欢 迎 。 
先 想 想 什么 是 函数 ? 函数 可 以 看 作 是 输入 到 输出 之 






































E 验 是 柯 西 分 布 ， 为 外 











FE 则 先 验 一 一 岭 回 归 和 











该 











间 的 映射 关系 。 一 种 学 习 该 映射 的 方法 是 将 其 限定 为 一 条 直线 ， 如 我 们 在 第 4 





章 做 的 那样 ， 





然后 用 贝 叶 斯 日 








知识 去 推断 出 决定 那 条 直线 的 参数 。 不 过 假设 我 

















们 不 希望 将 
中 7 对 于 
档 


























不 过 我 们 暂 








和 标准 差 暂 不 清楚 
分 布 。 

















在 真实 世界 中 ， 对 于 一 
为 两 个 点 之 间 存 在 着 无 穷 多 个 点 。 
高 斯 分 布 ， 这 在 数学 上 称 为 高 斯 过 程 ， 

函数 ， 此 时 我 们 有 : 


的 ， 因 





的 函数 才 是 一 


限定 为 一 
F 一 个 不 知道 的 量 
个 对 数据 拟 合 得 很 好 的 模型 
验 。 有 趣 的 是 ， 多 元 高 斯 就 是 这 样 一 个 先 验 (实际 上 是 一 个 与 之 相似 的 东西 ， 
斯 从 很 宽泛 的 〈 但 很 有 用 的 ) 角 
Xi 都 存在 一 个 高 斯 变 


这 么 认为 )， 
度 来 描述 一 个 函数 。 SI 














用 . 
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， 我 们 先 给 




















可 以 用 


一 个 多 元 高 
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这 样 ， 如 果 向 量 


上 且 
时 





Ex 的 长 度 为 n， 











个 实数 范围 








此 ， 理 t 





f(x) ~ GP(A(X), K(x, Xx")) 





关于 高 斯 过 程 的 
分布 的 变量 
个 无 限 维 向 量 的 均值 ， 协 方差 函数 则 是 一 个 无 限 维 
效 地 建 模 x 的 变化 量 与 了 的 变化 


应 的 正 态 
均值 函数 是 一 
阵 ， 
关系 。 











我 们 将 看 到 协 方差 矩阵 可 以 有 


个 了 





三 | 





FE 式 定义 是 说 ， 


连续 空间 




















总 结 一 下 ， 


中 我 们 假设 y= f(x)+&， 
也 就 是 说 ， 我 们 p(0 





后 面 将 会 
函数 ，1i 


p(f |x), 
直接 处 天 














前 

















面 几 章 中 ， 我 们 学 习 了 如 何 
其 中 , f 是 一 
x) 是 一 个 线性 模型 ， 


外 


个 线性 





模型 ， 


























看 到 ， 
这 样 思考 更 容易 到 











8.3.1 构建 协 方差 矩阵 


在 实践 中 ， 





函数 。 





我 们 仍然 需 


要 估 





E 解 一 些 。 





高 斯 过 程 的 均值 函数 通常 设 为 0( 尽 管 这 3 
斯 过 程 的 整个 行为 都 受 协 方差 矩阵 的 控制 ， 


























数 设置 





寻 此 ， 在 我 们 不 知 





条 直线 ， 也 可 以 是 任意 可 能 的 函数 。 通 常 在 贝 叶 斯 统计 
设置 一 个 先 验 ， 因 
时， 我 们 需要 对 隙 
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道 
一 个 先 
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量 yy 
那么 就 得 到 一 个 n 











均值 
元 高 斯 





内 的 映射 函数 ，x 和 了 实际 上 是 无 限 多 








HE 
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企 上 我 们 需 





的 协 


二 
县 





a 





估计 p(y|x)， 比 如 ， 在 线性 
模型 的 参数 。 
开 估 计 出 了 其 中 的 参数 ， 从 而 得 至 
计 参 数 ， 不 过 从 概念 上 讲 ， 我 们 是 在 





然后 估计 线性 








非 一 定 的 )， 











一 个 无 限 元 的 
一 个 参数 化 的 均值 函数 和 一 个 协 方 差 


的 每 个 点 都 有 一 个 与 之 对 
， 而 高 斯 过 程 就 是 这 无 限 多 个 随机 变量 的 联合 分 布 。 其 中 


口 


方差 矩 





二 之 间 的 








回归 


1 了 





因而 高 





所 以 这 里 重点 关注 如 何 构建 协 方差 
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从 高 斯 过 程 先 验 中 采样 

高 斯 过 程 的 概念 有 点 像 是 脚手架 ， 在 实际 使 用 中 我 们 通常 不 直接 使 用 该 无 限 
维 的 对 象 ， 相 反 ， 我 们 将 无 限 维 的 高 斯 过 程 收缩 到 一 个 有 限 维 的 多 元 高 斯 。 数 学 
上 ， 这 是 通过 对 模型 中 剩余 的 (无 限 的 ) 未 观测 维度 进行 边缘 化 得 到 的 ， 这 样 做 
之 后 就 可 以 得 到 一 个 多 元 高 斯 分 布 。 这 么 做 遵循 高 斯 过 程 的 定义 ， 即 作为 一 系列 
随机 变量 ， 其 中 任意 有 限 的 子 集 都 有 一 个 联合 高 斯 分 布 ， 于 是 得 到 的 多 元 高 斯 分 
布 的 维度 与 我 们 现 有 数据 的 个 数 相同 ! 这 样 ， 对 于 一 个 零 均 值 函 数 的 高 斯 过 程 ， 
我 们 有 : 





















































































































































f(x) ~ MvNormal(14 =[0,*…,0], K(x, x')) 


现在 我 们 搞定 了 无 限 维 这 个 殊 手 的 问题 ， 接 下 来 继续 处 理 协 方差 矩阵 ， 
注意 ， 我 们 将 协 方差 矩阵 写成 了 K(x,x)， 这 里 故意 写成 了 前 面 核 函 数 回 归 例 
子 中 的 定义 ， 因 为 我 们 实际 上 是 用 核 函 数 在 构建 协 方差 函数 。 协 方差 函数 描 
述 的 是 ， 当 x 变化 时 ,，y 是 如 何 随 之 变化 的 。 前 面 核 函 数 回归 中 ， 我 们 已 经 知 
道 了 使 用 高 斯 核 函 数 是 一 个 不 错 的 假设 ， 其 等 价 的 含义 是 说 ， 一 个 小 的 x; 拢 
动 会 导致 较 小 的 方 变化， 而 一 个 较 大 的 总 变化 则 会 孚 致 六 〈 平 均 来 看 ) 较 大 
的 变化 。 


为 了 从 直观 上 了 解 高 斯 过 程 先 验 是 什么 样 的 ， 我 们 将 对 其 采样 并 画 出 来 。 下 
图 根据 高 斯 过 程 先 验 画 出 了 6 个 任意 的 函数 〈 或 者 叫 实现 )。 注 意 ， 这 里 我 们 将 
实现 画 成 了 连续 函数 ， 实 际 上 ， 我 们 只 有 每 个 x, 以 及 与 之 对 应 的 (x,)， 不 过 根 
据 平滑 性 假设 以 及 无 法 计算 出 无 限 多 个 点 这 一 事实 ， 将 实现 中 的 点 转换 成 连续 
的 函数 也 是 合理 的 。 只 要 测试 点 足够 多 ， 对 应 的 结果 就 能 准确 反映 出 函数 的 真 
实 形状 。 



















































































































































































np.random.seed (1) 

test points = np.linspace (0, 10, 100) 

Cov = np.exp(-squared distance (test points, test points)) 
plt.plot (test points, stats.multivariate normal.rvs (cov=cov, 


size=6) .T) 


plt.xlabel ('$x$', fontsize=16) 


plt.ylabel('$f(x)$', fontsize=16, rotation=0) 





























从 这 张 图 可 以 看 出 ， 高 斯 过 程 先 验 ( 以 及 一 个 高 斯 核 函 数 ) 是 一 系列 在 0 附 
近 的 平滑 函数 。 























使 用 参数 化 的 核 函 数 

为 了 从 数据 中 学 到 关于 未 知 函 数 的 信息 ， 我 们 用 一 个 参数 化 的 核 函数 定义 了 
协 方差 矩阵 。 我 们 将 这 里 的 参数 称 为 超 参 。 原 因 有 如 下 两 点 : 
这 些 参数 是 高 斯 过 程 的 先 验 ; 
这 个 名 字 强 调 了 我 们 使 用 的 是 非 参 方法 。 

通过 学 习 高 斯 过 程 的 超 参 数 ， 我 们 希望 拟 合 出 未 知 函数 。 

前 面 我 们 已 经 提 到 了 ， 核 函数 有 很 多 种 选择 ， 其 中 最 常见 的 是 高 斯 核 函 数 。 
前 面 已 经 看 到 了 高 斯 核 函数 的 一 个 版 本 《〈 即 带宽 )。 现 在 ， 我 们 介绍 另外 一 个 版 
本 ， 用 到 了 其 他 两 个 参数 ， 我 们 可 以 将 其 写成 如 下 形式 ; 


nexp(-pD) 当 iz#j 
K; = sz ， 
2 n+o Es 

















































































































2 














其 中 , 刀 是 SED， 即 lx- zx ;7 是 一 个 控制 垂直 尺度 的 参数 ， 用 于 让 协 方差 
矩阵 建 模 ,/oo 更 大 或 者 更 小 的 值 ， 参 数 P 是 带宽 ， 前 面 已 经 知道 了 ，P 控制 的 是 
函数 的 平滑 程度 ， 参 数 o 控制 的 是 数据 中 的 噪声 。 
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让 我 们 一 起 讨论 下 o 以 及 为 什么 当 和 7 不 同时 使 用 另外 一 个 表达 式 。 在 一 
些 场景 中 ， 比 如 进行 插值 的 时 候 ， 我 们 希望 模型 对 于 每 个 观测 值 x; 都 返回 对 应 的 
观测 量 fw) 而 没有 任何 不 确定 性 ， 而 在 另外 一 些 场景 中 ， 比 如 本 书 涉及 的 例子 
中 ， 我 们 希望 得 到 fx) 估计 值 的 不 确定 性 ， 因 此 希望 得 到 一 个 接近 于 观测 值 
却 又 不 是 完全 一 样 的 值 。 于 是 有 : 
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y= f(x)+e 
其 中 ， 误 差 项 通过 e ~ N(0,o) 建 模 。 
因此 协 方差 矩阵 的 构成 需要 考虑 到 有 噪声 的 数据 ， 于 


cov[yi, yj;]= kX;) + oO; 


























谎 


























其 中 : 
0 当 i1 关 了 
0; = Sl 
1 i=j 








6; 称 作 delta 分 布 ， 也 就 是 说 ， 我 们 通过 将 协 方 差 矩 阵 的 对 角 线 上 的 值 设置 
为 不 是 正好 等 于 1 的 值 来 对 噪声 建 模 ， 事 实 上 芯 我 们 是 直接 从 数据 中 估计 出 对 角 
线 上 的 值 。 这 么 做 相当 于 给 模型 加 入 了 一 个 扰动 项 ;7 之 所 以 加 入 该 项 是 因为 ， 在 
核 函 数 所 附带 的 假设 中 ， 两 个 输入 越 接 近 ， 对 应 的 输出 也 越 接近 ， 极 限 情 况 下 ， 
两 个 输入 完全 相等 ， 它 们 的 输出 也 应 该 完全 相等 ， 而 增加 扰动 项 则 有 利于 捕捉 到 
观测 值 的 不 确定 性 。 


为 了 更 好 地 理解 超 参 的 含义 ， 我 们 可 以 把 扩展 后 的 高 斯 核 函数 画 出 来 ， 你 也 
可 以 随意 选 一 些 不 同 的 超 参 值 自己 试 试 ， 代 码 实现 如 下 : 
































































































































np.random.seed (1) 
eta = 1.5 

rho = 0.2 

sigma = 0.007 


D = squared distance (test points, test points) 


coV = eta * np.exp(-rho * D) 
diag = eta + sigma 


np.fill diagonal (cov, diag) 





[ 2061 





fo0r 1 Lm ranyge(6): 

plt.plot (test points, stats.multivariate normal.rvs (cov=cov)) 
plt.xlabel ('$x$', fontsize=16) 
plt.ylabel('$f(x)$', fontsize=16, rotation=0) 
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8.3.2 根据 高 斯 过 程 做 预测 

接 下 来 学 习 如 何 用 高 斯 过 程 做 预测 。 高 斯 过 程 的 一 个 优点 就 是 结果 可 以 从 数 
学 分 析 上 直接 推导 。 如 果 将 高 斯 过 程 先 验 与 高 斯 似 然 组 合 在 一 起 ， 我 们 得 到 的 是 
一 个 高 斯 过 程 后 验 。 也 就 是 说 ， 如 果 在 一 些 测 试点 上 应 用 条 件 高 斯 ， 我 们 可 以 得 
到 如 下 后 验 预 测 密度 的 表达 式 : 






















































































DPC) KX:, X,y) ~ NO Z:) 
M4=KiIK 7 
5=K. KiIK-K. 
在 给 定数 据 和 、 ”以 及 一 些 测试 点 x* 的 条 件 下 ， 计 算 未 知 函 数 在 (暂时 ) 
未 知 的 点 上 的 值 f(x:)。 注 意 ， 这 里 我 们 使 用 符号 * 来 表示 所 有 测试 点 上 的 运算 ， 
其 中 : 

















K= K(X,X) 





第 8 章 


这 个 式 子 初 看 可 能 有 点 吓人 ， 稍 后 我 们 将 看 到 如 何 用 代码 


Ks = K(X,, X.,) 


K, = K(X,X,) 














(但 愿 这 样 理 





Kx 是 XN: 





其 实 就 是 先 验 的 方差 注意， 
义 是 说 ， 我 们 可 以 根据 数据 将 先 验 的 方差 降低 这 么 多 。 此 外 ， 
数据 点 x; 较 远 的 测试 点 x* 而 言 ， 
近 于 0， 结 果 就 是 
的 函数 并 不 会 降低 不 确定 性 。 因 











特性 。 


如 果 你 想 知 道 更 多 有 关 多 元 高 
的 ， 可 以 参考 本 章 的 阅读 更 多 部 分 ， 我 在 那 


资料 。 针 对 当前 的 讨论 内 容 ， 我 们 暂且 假设 前 面 的 后 验 预 测 的 表达 式 是 已 知 









































核 函数 返 








E 验 的 方差 也 不 会 降低 多 少 。 





解 起 来 清晰 一 些 ) ， 不 过 现在 我 们 先 从 直观 上 到 











述 上 面 的 式 子 

















E 解 这 些 式 子 。 





自己 的 协 方差 ， 其 实 就 是 x. 的 方差 。 也 就 是 说 ， 
这 里 2 等 价 下 KK 减 去 一 个 


回 的 值 接近 于 0， 
换 句 话说 ， 评 佑 远离 数据 点 











此 ， 






































E 断 基于 的 是 数据 在 测试 点 附近 的 


斯 的 数学 特性 及 前 面 的 表达 式 是 如 何 


一 些 你 可 能 


添加 了 

















点 


Ps 


的 。 


Ee 











需要 注意 的 是 ， 我 们 可 以 从 高 
这 个 描述 未 知 函数 的 表达 式 非常 有 用 ， 不 过 有 






































个 问题 


测试 点 的 方差 
这 个 式 子 的 含 
对 于 一 个 距离 
也 接 


瑟 
宪 


有 ， 











上 本 


里 


因而 这 个 














局 部 





推导 


感 兴趣 的 参考 


人 心 M A ~、 





过 程 后 验 中 进行 采样 。 我 们 得 到 的 





， 计 算 过 程 中 涉及 求 


解 矩 阵 的 逆 ， 而 计算 逆 矩 阵 的 复杂 度 是 00), ~ 如 果 你 不 知道 这 个 表达 式 的 含 


义 ， 可 以 理解 为 该 操作 很 慢 ， 
过 几 千 个 数据 点 的 场景 ， 不 过 对 于 这 种 情况 有 
里 暂 不 深入 讨论 。 此 外 ， 在 实践 中 ， 直 接 求 逆 和 

















且 不 稳定 ， 





值 和 协 方差 后 验 函 数 。Cholesky 分 解 有 点 像 我 人 


























因此 更 倾向 于 使 用 一 些 蔡 代 方案 ， 





其 对 象 是 矩阵 。 
在 深入 Cholesky 分 解 和 直接 求 着 矩阵 的 例子 之 前 ， 我 们 先 观察 下 。 如 果 求 


逆 和 矩阵 会 


了 问题， 








那么 为 什么 还 要 将 高 














协 方差 矩阵 


是 独立 于 其 余部 分 的 计算 的 ， 
道 协 方差 矩阵 而 言 ， 数 据 子 集 


使 用 协 方 差 

















的 逆 呢 ? 原因 

















因而 它 是 








因此 实际 使 用 中 ， 我 们 无 法 将 高 斯 过 程 应 用 到 超 
些 近似 的 方法 来 加 速 计算 ， 








这 














斯 过 程 表示 成 协 方差 矩阵 而 不 是 直接 用 
是 ， 当 我 们 使 用 协 方差 矩阵 的 时 候 ， 对 其 子 集 的 计算 
独立 于 未 观测 到 的 点 的 计算 。 不 过 对 




















台 b 
He 





和 矩阵 (而 不 是 它 的 逆 )， 我 们 才 


[ 2081 


的 计算 会 依赖 于 我 们 是 否 观 测 到 了 其 


E 阵 可 能 会 有 一 些 数值 问题 ， 
比如 用 Cholesky 分 解 来 计算 均 
门 熟 悉 的 对 标量 求 平 方 根 ， 不 过 








而 
































于 
余 点 。 只 有 





只 


























得 


出 高 斯 过 程 基 于 


系列 随机 变 








量 一 致 的 定义 。 
总 结 一 下 ， 为 了 完全 从 贝 叶 斯 的 角度 使 用 高 斯 过 程 去 近似 一 个 函数 ， 我 


们 需要 : 


国 选择 一 个 核 函 数 构建 一 个 多 元 分 布 的 协 方差 矩阵 ; 
国 用 贝 叶 斯 统计 的 方法 推断 出 核 函 数 的 参数 ; 
国 计算 出 每 个 测试 点 的 均值 和 标准 差 。 


注意 ， 实 际 上 我 们 并 没有 真正 地 计算 出 高 斯 过 程 ， 只 是 借用 了 这 个 数学 概念 
来 确保 我 们 所 做 的 是 合理 的 ， 在 实践 中 ， 所 有 的 计算 都 是 通过 多 元 高 斯 完成 的 。 


读 完 前 面 理论 方面 的 长 篇 大 论 之 后 ， 终 于 到 了 大 家 期 待 的 时 刻 ， 我 们 将 把 这 
些 想法 转化 成 代码 。 首 先 ， 假 设 已 经 知道 了 核 函 数 的 参数 ， 然 后 用 代码 描述 后 验 
的 表达 式 。 用 到 的 超 参 和 test_points 的 值 与 前 面 定义 的 相同 ， 数 据 也 与 前 了 
核 函数 回归 例子 中 用 到 的 一 样 ， 代 码 实 现 如 下 ; 


























































































































































































































np.random.seed (1) 


Ko0 = eta * np.exp(-rho * D) 


Dx = squared distance (x, x) 
K = eta * np.exp(-rho * D x) 
diag x = eta + sigma 


np.fill diagonal (K, diag x) 


D off diag = squared distance (x, test points) 


Ko = eta * np.exp(-rho * D off diag) 


mu post = np.math.dot (np.math.dot (K o, np.linalg.inv (K)), y) 
SIGMA post = K oo - np.math.dot (np.math.dot (K o, np.linalg.inv (K)), Ko.T) 


for 二 1m randge(l100): 
fx = stats.multivariate normal.rvs (mean=mu post, cov=SIGMA post) 
plt,plot (test points, fx, “天 = Alpha=s0 1) 


LEPLOt(x WY GQ') 


plt.xlabel ('$x$', fontsize=16) 
plt.ylabel ('$f (x)$', fontsize=16, rotation=0) 








0 2 4 6 8 
x 


这 里 通过 有 登 在 一 起 的 一 些 红线 〈 从 高 斯 过 程 中 得 到 的 实例 ) 来 表示 不 确定 性 。 





























从 图 中 可 以 看 到 ， 在 数据 点 附近 的 不 确定 性 要 小 一 些 ， 而 在 最 后 两 个 数据 点 之 间 


的 不 确定 性 要 大 一 些 ， 在 最 右边 没有 数据 点 的 地 方 (x_ ~ 9) 
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不 确定 性 要 更 大 一 些 。 











接 下 来 ， 我 们 将 重新 实现 前 面 的 计算 过 程 ,不 过 这 次 用 的 是 Cholesky 分 解 。 
下 面 的 代码 是 根据 Nando de Freitas 讲授 机 器 学 习 课 程 中 的 实例 修改 后 得 到 的 ， 








在 代码 中 ，N 表示 数据 点 的 个 数 ，n 表示 测试 点 的 个 数 。 


np.random.seed (1) 


eta = 1 
rho = 0.5 
sigma = 0.03 


f = lambda x: np.sin(x) .flatten () 


def kernel (a, b): 
"nn GP squared exponential kernel ™"" 
sqdist = np.sum(a**2,1) .reshape (-1,1) + np.sum(b**2, 
return eta * np.exp(- rho * sqdist) 


N= 20 
n= 100 


X = np.random.uniform(0, 10, size=(N,1)) 
y = f(xX) + sigma * np.random.randn (N) 


K = kernel (X, X) 








1) - 2*np.dot (a, b.T) 





L = np.1inalg.cholesky(K + sigma * np.eye(N)) 


test points = np.linspace(0, 10, n) .reshape(-1,1) 


Lk = np.linalg.solvel(L, kernel (X, test points)) 
mu = np.dot (Lk.T, np.linalg.solvel(L, y)) 


K = kernel (Xtest, Xtest) 
sd pred = (np.diag(K ) - np.sum(Lk**2, axis=0))**0.5 


plt.fill between (test points.flat, mu-2*s, mu+2*s, color="r", alpha=0.2) 
plt.plot (test points, mu, 'r', lw=2) 

Blt.Blot (a YY "©") 

plt.xlabel('$x$', fontsize=16) 

plt.ylabel('$f(x)$', fontsize=16, rotation=0) 


0.5 
f (x) 0.0 


-0.5 





这 里 我 们 将 数据 点 用 蓝 色 的 点 来 表示 ， 均 值 函数 是 一 条 红线 ， 不 确定 性 用 半 
透明 的 区 域 来 表示 。 


8.3.3 用 PyMC3 实现 高 斯 过 程 
总 结 一 下 ， 我 们 有 如 下 高 斯 先 验 : 


f(x)~ GP(4=[0,%, 0],k(x,x')) 





第 8 章 高 斯 过 程 
一 个 高 斯 似 然 : 


pO Ix, f(x) ~ NOCFa 
以 及 一 个 高 斯 过 程 后 验 : 

















Pp(f (x) | X, y) a GP(Hyost» > post) 


EN 




























































































记 住 ， 在 实践 中 ， 我 们 使 用 的 是 多 元 高 斯 ， 因 为 在 一 个 有 限 的 数据 集 上 ， 高 
斯 过 程 就 是 一 个 多 元 高 斯 。 

我 们 将 使 用 贝 叶 斯 相关 的 原理 来 学 习 协 方差 矩阵 的 超 参 。 你 会 看 到 ， 尽 管 
使 用 PyMC3 很 简单 ， 但 是 现在 代码 量 会 增加 一 些 ， 我 们 需要 手动 求解 矩阵 的 逆 














(或 者 计算 Cholesky 分 解 )。 


很 可 能 在 不 久 的 未 来 ， PyMC3 中 会 出 现 一 个 高 斯 过 程 模块 ， 让 高 斯 过 程 模 
型 的 构造 更 简单 一 些 。 说 不 定 在 你 阅读 本 书 的 此 刻 ， 高 斯 过 程 模型 已 经 有 了 ! 了 



































下 面 的 模型 是 从 Chris Fonnesbeck 写 的 Stan 代 码 中 改造 的 : 


with pm.Model() as GP: 
mu = np.zeros (N) 


eta = pm.HalfCauchy('eta', 5) 


ho = pm HalfCauchy (rho, 5) 
sigma = pm.HalfCauchy('sigma', 5) 


DD 
I 


= squared distance (x, x) 


ba 
ll 


tt.fill diagonal (eta * pm.math.exp(-rho * D), eta + sigma) 

obs = pm.MvNormal('obs', mu, tt.nlinalg.matrix inverse(K), observed=y) 
test points = np.linspace (0, 10, 100) 

D pred = squared distance (test points, test points) 


D off diag = squared distance (x, test points) 


K_oo = eta * pm.math.exp(-rho * D pred) 
Ko = eta * pm.math.exp(-rho * D off diag) 























(GD 在 最 新 版 的 PyMC3 中 ， 己 经 有 该 模块 了 ， 具 体 请 参考 https://pymc-devs.github.io/ pymc3/ 


examples.html#gaussian-processes。 一 一 译 者 注 

















8.3 高 斯 过 程 





mu post = pm.Deterministic('mu post', pm.math.dot (Pm.math.aot (K ov 
tt.nlinalg.matrix inverse(K)), y)) 

SIGMA post = pm.Deterministic('SIGMA post', K oo - pm.math.dot (pm 
math.dot (K o, tt.nlinalg.matrix inverse(K)), Ko.T)) 


start = pm.tind MAP () 
trace = pm.sample (1000, start=start) 


varnames = ['eta', 'rho', 'sigma'] 
chain = trace[100:] 


pm.traceplot (chain, varnames) 


0.25 eta sg 50 eta 
他 0.20 豆 40 
号 0.15 2 30 
3 0.10 上 20 
请 0.05 有 10 
9» 
0.000 10 20 30 40 50 100 200 300 500 600 700 800 900 
10 rho s 
8 
35 
DO 4 [= 
应 2 号 
W000.05 010 015 020 025 030 035 040 0.45 : 100 200 300 400 500 600 700 800 900 
2000 sigma 0.0025 sigma 
多 1500 :3 
5 0.0015 
G1000 冯 0.0010 
庄 500 江 | 
0 0.00 
0.0000 0.0005  Q.0010 0Q.0015 0.0020 0.0025 100 200 300 400 500 600 700 800 900 


如 果 留 心 的 话 ， 你 会 注意 到 估计 出 来 的 参数 (7m,p,o) 的 均值 就 是 我 们 前 面 
例子 中 用 到 的 值 。 这 也 解释 了 为 什么 拟 合 的 效果 这 么 好 ， 这 些 超 参 可 不 是 从 我 们 
脑袋 里 想 出 来 的 ! 


pm.df_summary (chain, varnames) .round(4) 









































mc_error 2， hpd_97.5 





0.1587 l 6.3445 





0.0027 . 0.2290 





0.0000 0.0012 




















后 验 预测 检查 
现在 我 们 把 原始 数据 和 从 高 斯 过 程 后 验 中 得 到 的 实例 都 画 出 来 ， 注 意 ， 我 们 

































































它们 的 均值 ， 代 码 实现 如 下 : 


8S) ff6r mS im Zip (chainl "mu. 
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第 8 章 高 斯 过 程 
ep pe a hE 
还 画 出 了 超 参 的 不 确定 性 ， 而 不 只 是 
ypred = [np.random.multivariate normal (my 
Bost lis) Charnl sieM post" lS))d 
for yp in y_pred: 
plt.plot (test points, yp, 'r-', alpha=0.1) 
Blt loti(s. Yr He) 
plt.xlabel ('$x$', fontsize=16) 
plt.ylabel('$f(x)$', fontsize=16, rotation=0) 
际 : 
-1.5 
0 2 4 
x 


前 一 幅 图 中 ， 你 可 能 注意 到 了 ， 我 们 可 以 很 好 地 拟 合 sin 函数 ， 不 过 模型 在 


9 到 10 之 间 不 确定 性 非常 大 (该 区 间 没 
的 数据 是 通过 一 个 周期 函数 生成 的 ， 但 
























































数据 点 )。 该 模型 的 一 个 问题 是 ， 原 始 
是 我 们 的 核 函数 并 没有 做 出 周期 性 的 假 

















设 。 某 些 情况 下 ， 当 我 们 知道 数据 可 能 是 周期 性 的 时 候 ， 应 该 使 用 一 个 周期 性 的 
核 函数 。 一 个 典型 的 周期 性 核 函 数 如 下 : 
sin? [= = | 
Kp(x,x")=exp| 2 
w 





注意 ， 这 个 核 函数 与 高 斯 核 函数 的 主要 区 别 是 包含 了 一 个 sn 函数 。 我 们 可 





以 复 用 前 面 的 代码 ,8 














E 一 的 区 别 是 现在 需要 定义 一 个 周期 函数 而 不 是 squared_ 





distance， 代 码 实现 如 下 : 


periodic = lambda x, y: np.array([[np.sin((x[i] - y[j])/2)**2 for i in 


range (len(x))] for j in range (len(y))]) 
在 这 个 模型 中 ， 我 们 需要 将 squared distance 蔡 换 成 这 个 周期 函数 。 
运行 模型 之 后 ， 你 应 该 会 得 到 类 似 下 面 的 图 : 








1.5 


1.0 


8.4 总 结 

本 章 一 开始 ， 我 们 学 习 了 贝 叶 斯 框架 下 的 非 参 统计 ， 以 及 如 何 用 核 函 数 表 
示 统 计 学 中 的 问题 ， 例 如 ， 我 们 用 一 种 采用 核 函 数 的 线性 回归 去 建 模 了 非 线性 输 
出 ， 随 后 继续 讨论 了 另外 一 种 构建 和 理解 核 函 数 方 法 的 方式 一 一 高 斯 过 程 。 


高 斯 过 程 是 多 元 高 斯 分 布 扩 展 到 无 限 多 维 时 的 一 种 一 般 形式 ， 可 以 用 一 个 均 
值 函数 和 一 个 协 方差 函数 来 描述 。 由 于 从 概念 上 我 们 可 以 将 函数 看 作 无 限 长 的 向 
量 ， 因 而 可 以 将 高 斯 过 程 作为 函数 先 验 。 实 践 中 ， 我 们 处 理 的 是 维度 和 数据 点 个 
数 相同 的 多 元 高 斯 分 布 。 为 了 定义 与 之 对 应 的 协 方差 函数 ， 我 们 使 用 了 参数 化 的 
核 函 数 ， 通 过 学 习 超 参数 ， 最 终 可 以 拟 合 出 任意 复杂 的 未 知 函 数 。 
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这 一 章 中 ， 我 们 简要 介绍 了 高 斯 过 程 ， 还 有 许多 与 之 相关 的 主题 需要 学 习 
(比如 构建 一 个 半 参 数 化 模型 ， 将 线性 模型 作为 均值 函数 )， 或 者 是 将 两 个 或 者 
多 个 核 函 数组 合 在 一 起 来 描述 未 知 函 数 ， 或 者 是 如 何 将 高 斯 过 程 用 于 分 类 任务 ， 
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或 者 是 如 何 将 高 斯 过 程 与 统计 学 或 者 机 器 学 习 中 的 其 他 模型 联系 起 来 。 不 管 怎么 
说 ， 我 希望 本 章 对 高 斯 过 程 的 介绍 以 及 本 书 中 一 些 其 他 主题 的 介绍 能 够 激励 你 阅 
读 、 使 用 和 进一步 学 习 贝 叶 斯 统计 。 


















































8.5 ”深入 阅读 


加 Carl Edward Rasmussen 和 Christopher K.I Williams 写 的 《Gaussian Processes 





for Machine Learning》 一 书 。 
国 Kevin Murhpy 的 《Machine Learning a Probabilistic Perspective》 中 的 第 4 
章 和 第 15 章 。 
《Statistical Rethinking》 中 的 第 11 章 。 
国 《Bayesian Data Analysis, Third Edition》 中 的 第 22 章 。 











8.6 练习 








1. 在 核 回 归 的 例子 中 ， 尝 试 修改 结 的 个 数 以 及 带宽 /( 一 次 修改 一 个 )， 这 
些 改变 有 什么 效果 ? 尝试 只 使 用 一 个 结 ， 你 观察 到 了 什么 ? 


2. 用 核 回归 拟 合 其 他 函数 ， 比 如 = np.sin(x)+x*0.7 或 者 y =x。 尝 试 像 练 
习 1 中 那样 修改 数据 和 参数 的 个 数 。 


3. 在 前 面 从 高 斯 过 程 先 验 中 采样 的 例子 里 ， 增 加 实例 的 个 数 ， 将 plt. 


plot(test points, stats.multivariate normal .rvs (Cov=Cov, 












































size=6) .T) 替换 成 plt.plot (test pointsy Stats.nultivariate 
normal.rvs (cov=cov, Size=1000) .T， alpha=0.05, color='b')。 
高 斯 过 程 的 先 验 是 什么 样子 的 ? 你 是 否 看 出 f(x) 分 布 得 像 均 值 为 0、 标 准 差 为 1 
的 高 斯 分 布 ? 


4. 对 于 一 个 使 用 高 斯 核 的 高 斯 过 程 后 验 ， 沦 试 将 测试 点 定义 在 区 间 [0,10] 
之 外 ， 区 间 外 的 点 有 怎样 的 结果 ? 这 告诉 我 们 在 外 推 (extrapolating) 时 需要 注 
意 什 么 《特别 是 非 线性 函数 )? 


5. 重复 练习 4， 这 次 换 成 周期 性 核 ， 现 在 你 的 结论 又 是 什么 ? 
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本 书 介绍 了 贝 叶 斯 统计 中 的 主要 概念 ， 以 及 将 其 应 用 于 数据 分 析 的 方法 。 本 书 不 要 求 读者 有 任何 
统计 学 方面 的 基础 知识 ， 不 过 需要 读者 有 使 用 Python 的 经 验 。 本 书 采用 编程 计算 的 实用 方法 介 
绍 了 贝 叶 斯 建 模 的 基础 ， 使 用 一 些 手工 构造 的 数据 和 一 部 分 简单 的 真实 数据 来 解释 和 探索 贝 叶 斯 
框架 中 的 核心 概念 ， 然 后 在 本 书 涉及 的 模型 中 ， 抽 象 出 了 线性 模型 用 于 解决 回归 和 分 类 问题 ， 此 
外 还 详细 解释 了 混合 模型 和 分 层 模 型 ， 并 单独 用 一 章 讨 论 了 如 何 做 模型 选择 ， 最 后 还 简单 介绍 了 
非 参 模型 和 高 斯 过 程 。 


本 书 所 有 的 贝 叶 斯 模型 都 用 PyMC3 实 现 。PyMC3 是 一 个 用 于 概率 编程 的 Python 库 ， 其 许多 


特性 都 在 书 中 有 介绍 。 在 本 书 和 PyMC3 的 帮助 下 ， 读 者 将 学 会 实现 、 检 查 和 扩展 贝 叶 斯 统计 模 
型 ， 从 而 解决 一 系列 数据 分 析 的 问题 。 


从 本 书 你 将 学 到 : 


a 从 实用 的 角度 理解 基本 的 贝 叶 斯 概念 ; 


学 习 如 何 用 PyMC3 构 建 概率 模型 ; 





a" 掌握 检查 和 修改 模型 的 技能 ; 


利用 分 层 模型 的 优势 给 模型 加 入 结构 ; 


针对 不 同 的 数据 分 析 问 题 ， 找 到 合适 的 模型 ; 


学 会 在 不 确定 的 情况 下 做 模型 选择 ; 


用 回归 分 析 预 测 连 续 变 量 ， 用 逻辑 回归 或 softmax 做 分 类 ; 


学 习 如 何 从 概率 的 角度 思考 ， 释 放 贝 叶 斯 框架 的 灵活 性 与 力量 。 
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